2012-05-02 8 views
2

コンテキストを減らします。私たちが達成したいのは、私たちが観察しているメトリックのすべてまたは一部の組み合わせに基づいて、多かれ少なかれライブ統計です。考えられる戦略は、キュー上のデータを送信し、データのワーカープロセスデルタを取得し、元のデータの集約としてキューにデータを戻すことです。分散コンピューティングは、/

観察:私に

、これはHadoopのような何かのための仕事のように見えますが、心配(と盾)は、主にスピードについては、提起されました。私は両方のベンチマークの時間がありませんでしたが、キューから(10〜100 mb/s付近のどこでも)十分な量のデータをポンピングする予定です。私はそれが分散コンピューティングシステムの仕事のように見えますが、キューソリューションは分散コンピューティングソリューションよりも規模が小さくなると感じています。

質問:

簡単に言えば、私は正しいですか?私はHadoop + HDFSで少し読んだことがありますが、Lustreなどのような別のFSを使用してNodeName SPOFを回避し、何らかの種類のノードの障害に対する何らかの耐性を持つソリューションを使用することを考えていました。クラスター全体

+0

あなたの質問は次のようなものです:既存のmap-reduceフレームワークを使用するか、自分で作成する必要がありますか?答えは:あなたの目標に依存します。ちょうど(何らかの学習を伴っても)うまくいくものが必要な場合は、既存のものを使用してください。あなたが何か新しいものを作りたいなら、あなた自身のものを書きなさい。 – kofemann

+0

ええ、私は1つまたは1つを使用して気にしません、私は実際にデータからライブ統計をポンピングするために毎日数十GBのデータでリアルタイムで離れさせる最善の方法を探しています。私たちは現在、それを取り除くメッセージキューを探していますが、私はMap/Reduceを使った分散計算がそれを行うためにもっと適していると考えていました。 –

+0

さて、Hadoopはあなたにとって最適なツールです。もちろん、データをHDFSにコピーする必要があります(ただし、1日あたりのデータ量は90GBです)。 – kofemann

答えて

2

フェイルオーバー、バランス調整などが必要なときに、自分の「分散環境」ソリューションを作成するのは本当に難しいです。ほぼリアルタイムのマップ/リダクションが必要な場合は、チェックアウトする必要がありますstorm Twitterの巨大データニーズ。あまり複雑ではなく、待ち行列型の入力を消費する方が優れています(私の意見では)。

また、hadoopでデータを分析する場合、名前ノードのSPOFについてあまり心配しないでください。それを回避するにはsome waysがあります。

+0

本物の面白い読み/話! Hadoopのhdfs spofに関して、私は分散ファイルシステムを使用することを考えていました(いくつかは明らかにhadoop互換です)。それは実現可能ですか? –

+1

hadoopは主にバッチ処理のためのものであるため、「リアルタイム」の要件は満たされません。毎週、毎日、毎時、比較的大きなデータ(〜500GB)の複雑な操作にはhadoopを使用します。ほぼリアルタイムの操作のために、私は嵐+カフカを好む。 – frail

関連する問題