私は、おおよそ次の処理を行い、並列アルゴリズム、に取り組んでいます: Hadoop/MapReduceの入力としてのメモリからのオブジェクト?
- は10Kの単語の合計で数テキスト文書をお読みください。
- テキストコーパスのすべての単語のオブジェクトを作成します。
- すべての単語オブジェクト間にペアを作成します(yes、O(n))。最も頻繁なペアを返します。 Iは最初の1000拳マシン上残りのワードは、オブジェクト間の次のマシン上に、第二千ワードオブジェクトのペアを作成することによって、3ステップを並列化したい
など
私の質問は、2.ステップで作成されたオブジェクトをMapperに渡す方法です。私が知っている限り、私はこれのために入力ファイルが必要なので、オブジェクトをシリアライズする必要があります(これまではこれで動作しませんでした)。マッパーにオブジェクトを渡す直接の方法はありますか?助けを事前に
おかげ
エフゲニー
UPDATE は前に私の質問を読んでいただきありがとうございます。直列化はこれを解決する最善の方法のようです(java.io.Serializableを参照)。さらに、このチュートリアルでは、シリアル化されたオブジェクトのデータをhadoop:http://www.cs.brown.edu/~pavlo/hadoop/に読み込むのに役立つことが分かりました。
この分野の専門家ではありませんが、私はそこにいるとは思いません。オブジェクトをシリアライズすることはあまり難しくありません。 – Nick