2012-04-13 1 views
2

私はちょうどHadoopを使い、Map Reduceジョブを作成しています。私はいくつかの電子メールを取ってHDFSに入れてメールの本文や添付ファイルを検索できるように、PythonでMRジョブを書くのに助けを求めていましたか?電子メールとマップジョブを減らす

ありがとうございました!

答えて

3

メールを処理するには、stdlibのemailモジュールが便利でしょう。ハドープ側では、Using Python with Hadoopが便利かもしれませんが、たくさんのGoogleの結果があります。

+0

を見ていくつかのサンプルコードがありますか? –

+0

@StevenSmith以前のリンクで言及したダンボフレームワークについては、この短いチュートリアルhttps://github.com/klbostee/dumbo/wiki/Short-tutorialをご覧ください。 –

1

いや、あなたはあなたが書き込みPythonコードを使用する場合のMapReduceジョブを実行するためのHadoopストリーミングを使用する必要が