私は2つのmapreduceジョブがあるシナリオです。私は、Pythonをより快適に使い、mapreduceスクリプトを書くためにそれを使用し、同じもののためにハープ・ストリーミングを使用することを計画しています。ハープ・ストリーミングが使用されているときにフォームに従った両方のジョブを連鎖させるのに便利ですか?Hadoopストリーミングで複数のmapreduceタスクを連結する
マップMap1 - > Reduce1 - >マップ2 - > Reduce2
私はJavaでこれを達成する方法をたくさん聞いたが、私はHadoopのストリーミングのために何かを必要としています。
でhttps://github.com/Yelp/mrjob
とドキュメントのソースうーん、私はこれがどのように機能するかを確認していません。私は質問をしました:http://stackoverflow.com/questions/35249753/call-mapper-when-reducer-is-done – gsamaras