例えば、典型的なWORDCOUNTのMapReduceは読み込み出力返す可能性があります:私は少し違っているので、出力をフォーマットしたい再びキー/値の代わりにHadoop MapReduceジョブの出力を値/キーとして返すにはどうすればよいですか?
ハロー3
世界4
をそれ代わりに次のように表示されます。
3 hello
4世界
1再び
私は値でソートしたい記事をたくさん読んだと回答は、最初の1の出力に第二のMapReduceジョブを示唆しました。しかし、私は値で並べ替える必要はなく、複数のキーが同じ値を持つ可能性もあります - 私はそれらを一緒に束ねたくありません。
キー/値の印刷順序を簡単に切り替える簡単な方法はありますか?それは簡単なように思える。安心のために考慮すべき
レデューサーコードの出力の順序を切り替えようとしましたか? –
また、Spark(とはるかに少ないコード)で行うのは非常に簡単です。 –