コンテキストを減らします。私たちが達成したいのは、私たちが観察しているメトリックのすべてまたは一部の組み合わせに基づいて、多かれ少なかれライブ統計です。考えられる戦略は、キュー上のデータを送信し、データのワーカープロセスデルタを取得し、元のデータの集約としてキューにデータを戻すことです。分散コンピューティングは、/
観察:私に
、これはHadoopのような何かのための仕事のように見えますが、心配(と盾)は、主にスピードについては、提起されました。私は両方のベンチマークの時間がありませんでしたが、キューから(10〜100 mb/s付近のどこでも)十分な量のデータをポンピングする予定です。私はそれが分散コンピューティングシステムの仕事のように見えますが、キューソリューションは分散コンピューティングソリューションよりも規模が小さくなると感じています。
質問:
簡単に言えば、私は正しいですか?私はHadoop + HDFSで少し読んだことがありますが、Lustreなどのような別のFSを使用してNodeName SPOFを回避し、何らかの種類のノードの障害に対する何らかの耐性を持つソリューションを使用することを考えていました。クラスター全体
あなたの質問は次のようなものです:既存のmap-reduceフレームワークを使用するか、自分で作成する必要がありますか?答えは:あなたの目標に依存します。ちょうど(何らかの学習を伴っても)うまくいくものが必要な場合は、既存のものを使用してください。あなたが何か新しいものを作りたいなら、あなた自身のものを書きなさい。 – kofemann
ええ、私は1つまたは1つを使用して気にしません、私は実際にデータからライブ統計をポンピングするために毎日数十GBのデータでリアルタイムで離れさせる最善の方法を探しています。私たちは現在、それを取り除くメッセージキューを探していますが、私はMap/Reduceを使った分散計算がそれを行うためにもっと適していると考えていました。 –
さて、Hadoopはあなたにとって最適なツールです。もちろん、データをHDFSにコピーする必要があります(ただし、1日あたりのデータ量は90GBです)。 – kofemann