6
私の仕事はソートを必要とせず、キーごとの集計情報だけです。ですから、パフォーマンスを向上させるためにすべての情報の並べ替えを無効にすることができればと思います。hadoopで並べ替えを無効にすることはできますか?
注:多くのマッパー間でデータを集計する必要があるため、レデューサーの数をゼロに設定することはできません。私はちょうど1つの減速機と結果をソートに興味がありません。
私の仕事はソートを必要とせず、キーごとの集計情報だけです。ですから、パフォーマンスを向上させるためにすべての情報の並べ替えを無効にすることができればと思います。hadoopで並べ替えを無効にすることはできますか?
マップ出力をソートする主な目的の1つは、タプルがレデューサーに到達すると、レデューサーは減速タスクを呼び出す必要があります。ソートマップ出力リストでは、別のキーを見てから新しいリストを作成する)、マップの出力がソートされていない場合は、リスト全体をスキャンして同じキーを持つリストを作成する必要があります。
AFAIK、ソートはMRジョブの必須段階ですが、省略することはできません。ソートは通常、パフォーマンスオーバーヘッドの重要な要素ではありません。 – wlk
yura、解決策を見つけましたか?他の質問には、実際には答えがあるので、私は二重引用符として閉じようとしています! – gsamaras
[HadoopとPython:Sortingを無効にする]の可能な複製(http://stackoverflow.com/questions/19188263/hadoop-and-python-disable-sorting) – gsamaras