2016-06-25 16 views
1

。大きなデータフレームワーク?それらはすべて分散コンピューティングフレームワークであるようです - 特にBOINCの違いや私が読める場所はありますか?BOINCとHadoopの違い/スパークの/ etc

EUの大型ハドロンコライダーがBOINCを使用しているようですが、なぜHadoopを使用しないのですか?

ありがとうございました。

+0

CERNは実際にHadoop + Sparkを利用しています。例:http://openlab.web.cern.ch/technical-area/data-analytics –

+0

BOINCとHadoop/Spark /他の分散コンピューティングプラットフォーム間の**最も大きな違い** **は誰ですか? 。 BOINCは、外部から投資されるCAPEX +外部から資金提供されるOPEX co $ t $の大規模な収集を楽しんでいます。この "コンピューティングパワーを(ほぼ)フリー"にすることは魅力的な話題です。法的には、そのようなスポンサードコンピューティングのスポンサーになる意志を明示したかどうか、重要なステップがあります。 BOINCはこれでは明確で倫理的ですが、普遍的に適用されるわけではありません(プロセスエクスプローラでGPUエンジンにどのような驚異的なタスクがロードされているかをよく確認してください) – user3666197

答えて

1

BOINCは、BOINCは厳密に未使用の計算サイクルを使用して、グリッド・コンピューティングを可能にし、単一のアプリケーションである科学技術計算に

を行うには、コンピュータ上で未使用のCPUとGPUのサイクルを使用することができるソフトウェアです。

のApache Hadoopのコモディティ・ハードウェアから構築されたコンピュータのクラスタ上で非常に大きなデータセットの分散ストレージ分散処理のためのフレームワークオープンソースソフトウェアです。 Hadoopのすべてのモジュールは、ハードウェア障害が一般的であり、フレームワークによって自動的に処理されるという基本的な前提で設計されています。

Apache Hadoopのコアは、Hadoop分散ファイルシステム(HDFS)と呼ばれるストレージ部分と、MapReduceと呼ばれる処理部分で構成されています。あなたはHadoopの両方のストレージとコンピューティング能力を持っている(また、生態系とも呼ばれる)のフレームワークであることがわかり、ここで

(強調は、フレームワークに加えて、それは二重の機能です)。 ClouderaやHortonworksなどのHadoopベンダーは、追加機能(Hive、Hbase、Pig、Sparkなど)といくつかのセキュリティ/監査ツールをバンドルしています。

さらに、ハードウェア障害は、これらの2つのクラスタによって異なる方法で処理されます。 BOINCノードが消滅した場合、フォールトトレランスはありません。それらのリソースは失われます。 Hadoopの場合、データは複製され、最終的には失敗する前にタスクが一定回数再実行されますが、フレームワークに組み込まれているロギングサービスが実行されている限り、これらの手順は追跡可能です。

EUの大型ハドロンコライダーはBOINCを使用しているようですが、なぜHadoopを使用しないのですか?

BOINCは世界中の誰もがクラスタに加わるためにインストールできるソフトウェアを提供するため、実質的に無料でどこからでも広い範囲のコンピューティングパワーを得ることができます。

Hadoopを内部で使用してストレージを追加したり、Sparkで追加のコンピューティングを行ったりしているかもしれませんが、商品ハードウェアを一括して購入し、そのクラスタを構築/維持することはコストがかかるようです。

1

BOINCとHadoopの類似点は、大きな問題が多くの部分で解決できることを利用することです。そして、両方とも多くのコンピュータにわたってデータを配信することに最も関連しており、アプリケーションではありません。

違いは、寄与するすべてのマシン間の同期度です。 Hadoopを使用すると、同期が非常に厳しくなり、ある時点ですべてのデータをすべてのマシンから収集して最終的な分析を行うことが期待されます。あなたは文字通り最後のものを待っており、仕事の最後の部分が完了するまで何も返されません。

BOINCでは、全く同期性がありません。あなたは何千もの仕事をする必要があります。プロジェクトの保守担当者が運営するBOINCサーバー側は、ボランティアが運営するBOINCクライアント側に実行するジョブの配信を調整します。

BOINCでは、プロジェクトの保守担当者はクライアントをまったく管理できません。クライアントが結果を返さない場合、作業ユニットは別の場所に送られます。 Hadoopでは、プロジェクト管理者はクラスタ全体にアクセスできます。 BOINCを使用すると、アプリケーションはさまざまなプラットフォーム間で提供されます。これは、ユーザーが提供するプラットフォームが完全に不確定なためです。 Hadoopでは、すべてが明確に定義され、通常は非常に均質です。 BOINCの最大のプロジェクトには数万人の定期的なボランティアがいますが、Hadoopにはあなたが購入または借りる余裕があります。

関連する問題