2017-04-13 29 views
0

HadoopでPageRankの問題を処理するMapReduceプログラム(mapper.pyとreducer.py)を書きました。HadoopでMapReduceを反復処理する方法は? (lang:python)

MapReduceを約10回反復したいと思います。第1ラウンドMapReduceの出力を第2ラウンドMapReduceの入力にどのように取ることができますか?

 1     2       10 
[mapper->reducer] -> [mapper->reducer] -> ... -> [mapper->reducer] -> final result 
+0

ApacheのスパークGraphXは、PageRankを内蔵しています –

答えて

0

job2の入力としてjob1の出力をチェーンすることができます。

inputdir1 - > outputdir1 - > outputdir2 ... - > outputdir9 - > outputdir10

関連する問題