複数のマッパーの結果をHadoopのリデューサでソート

私はMRプログラムの入力として複数の非常に大きなファイル（ほぼ500MB）を持っています。これらのファイルを同じサイズのパーティションに分割（分割）します。マッパーでキー=（ファイル名、パーティション番号）とValue =（パーティションの文字ストリーム）複数のマッパーの結果をHadoopのリデューサでソート

私が値（文字列）にいくつかの計算を適用しています：それぞれのマッパーは、ファイル

マッパーの単一のパーティションを取得します。入力ファイルに対応する結果（すべてのパートファイル）を1つのレデューサーで収集したいと思います。だから私は減速機のi/pキーを 'ファイル名'と考えた。しかし、マッパーからの出力は、減速機で連続して収集する必要があります（[partition1 o/p + partition2 + ... + partitionNo/p]のように）

私に論理を教えてもらえますか？おかげさまで

出典

2016-04-01 Sumit

セカンダリソートが必要です。例えばこの場合、https://vangjee.wordpress.com/2012/03/20/secondary-sorting-aka-sorting-values-in-hadoops-mapreduce-programming-paradigm/

」

プライマリコンパレータのみ

ファイル名にファイル名を[ファイル名、パーティション番号]

グループのComparatorにのみ

パーティショナを比較を参照してください

出典

2016-04-04 10:34:03 alexeipab

複数のマッパーの結果をHadoopのリデューサでソート

答えて

関連する問題