HadoopでMapReduceを反復処理する方法は？（lang：python）

HadoopでPageRankの問題を処理するMapReduceプログラム（mapper.pyとreducer.py）を書きました。HadoopでMapReduceを反復処理する方法は？（lang：python）

MapReduceを約10回反復したいと思います。第1ラウンドMapReduceの出力を第2ラウンドMapReduceの入力にどのように取ることができますか？

 1     2       10 
[mapper->reducer] -> [mapper->reducer] -> ... -> [mapper->reducer] -> final result

2017-04-13 Wen

ApacheのスパークGraphXは、PageRankを内蔵しています –

job2の入力としてjob1の出力をチェーンすることができます。

inputdir1 - > outputdir1 - > outputdir2 ... - > outputdir9 - > outputdir10

2017-04-13 20:42:57 tk421

HadoopでMapReduceを反復処理する方法は？ （lang：python）