私はちょうどHadoopを使い、Map Reduceジョブを作成しています。私はいくつかの電子メールを取ってHDFSに入れてメールの本文や添付ファイルを検索できるように、PythonでMRジョブを書くのに助けを求めていましたか?電子メールとマップジョブを減らす
ありがとうございました!
私はちょうどHadoopを使い、Map Reduceジョブを作成しています。私はいくつかの電子メールを取ってHDFSに入れてメールの本文や添付ファイルを検索できるように、PythonでMRジョブを書くのに助けを求めていましたか?電子メールとマップジョブを減らす
ありがとうございました!
メールを処理するには、stdlibのemail
モジュールが便利でしょう。ハドープ側では、Using Python with Hadoopが便利かもしれませんが、たくさんのGoogleの結果があります。
いや、あなたはあなたが書き込みPythonコードを使用する場合のMapReduceジョブを実行するためのHadoopストリーミングを使用する必要が
を見ていくつかのサンプルコードがありますか? –
@StevenSmith以前のリンクで言及したダンボフレームワークについては、この短いチュートリアルhttps://github.com/klbostee/dumbo/wiki/Short-tutorialをご覧ください。 –