私はMRプログラムの入力として複数の非常に大きなファイル(ほぼ500MB)を持っています。これらのファイルを同じサイズのパーティションに分割(分割)します。マッパーでキー=(ファイル名、パーティション番号)とValue =(パーティションの文字ストリーム)複数のマッパーの結果をHadoopのリデューサでソート
私が値(文字列)にいくつかの計算を適用しています:それぞれのマッパーは、ファイル
マッパーの 単一のパーティションを取得します。 入力ファイルに対応する結果(すべてのパートファイル)を1つのレデューサーで収集したいと思います。だから私は減速機のi/pキーを 'ファイル名'と考えた。しかし、マッパーからの出力は、減速機で連続して収集する必要があります([partition1 o/p + partition2 + ... + partitionNo/p]のように)
私に論理を教えてもらえますか?おかげさまで