Hadoop/MapReduceの入力としてのメモリからのオブジェクト？

私は、おおよそ次の処理を行い、並列アルゴリズム、に取り組んでいます： Hadoop/MapReduceの入力としてのメモリからのオブジェクト？

は10Kの単語の合計で数テキスト文書をお読みください。
テキストコーパスのすべての単語のオブジェクトを作成します。
すべての単語オブジェクト間にペアを作成します（yes、O（n））。最も頻繁なペアを返します。

など

私の質問は、2.ステップで作成されたオブジェクトをMapperに渡す方法です。私が知っている限り、私はこれのために入力ファイルが必要なので、オブジェクトをシリアライズする必要があります（これまではこれで動作しませんでした）。マッパーにオブジェクトを渡す直接の方法はありますか？助けを事前に

おかげ

エフゲニー

UPDATE は前に私の質問を読んでいただきありがとうございます。直列化はこれを解決する最善の方法のようです（java.io.Serializableを参照）。さらに、このチュートリアルでは、シリアル化されたオブジェクトのデータをhadoop：http://www.cs.brown.edu/~pavlo/hadoop/に読み込むのに役立つことが分かりました。

出典

2011-02-09 evgeni

この分野の専門家ではありませんが、私はそこにいるとは思いません。オブジェクトをシリアライズすることはあまり難しくありません。 – Nick

すべての手順を並列化するのはどうですか？あなたの＃1テキスト文書をマッパーの入力として使用します。マッパーのすべての単語のオブジェクトを作成します。マッパーでは、あなたのキーと値のペアは、単語とオブジェクトのペア（またはあなたがやっていることに応じてオブジェクトワード）になります。 Reducerは、一意のペアを数えます。

Hadoopは、同じキーをすべて同じReducerにまとめて処理します。

出典

2011-02-09 03:46:26

提案に感謝します。アルゴリズムは非常に大規模で、私はパフォーマンスを向上させることができるかどうかを確認するために、まずリソースを消費する部分から始めようと考えました。 – evgeni

twitter protobufs（elephant-bird）を使用してください。各単語をprotobufオブジェクトに変換し、必要に応じて処理します。また、protobufsは、デフォルトのJavaシリアル化と比較してはるかに高速で軽いです。これについてのKevin Weilのプレゼンテーションを参照してください。 http://www.slideshare.net/kevinweil/protocol-buffers-and-hadoop-at-twitter

出典

2011-02-24 07:27:29

Hadoop/MapReduceの入力としてのメモリからのオブジェクト？

答えて

関連する問題