2017-03-21 11 views
1

私は「ORDER BY」節選択クエリを実行すると仮定して、私のデータは、複数のマシンに分配されます。方法マップを減らすと実行する場所"受注先"クエリ。HadoopのMapReduceの機能

答えて

0

Map-Reduceを使用して、分散型の「注文者」を実装することができます。

... YahooのHadoopのクラスタの一つは、209 秒で1テラバイトのデータをソート...ソートが1800のマップを使用し、1800年には減少さは...

Apache Hadoop Wins Terabyte Sort Benchmark

この缶オーダーキーを範囲の値にマッピングすることによって行うことができます。


ハイブただし、1つのレデューサーで「オーダー」を実装しています。

...最終的な出力をソートするには、すべての結果の合計順序を指定するには、1つの レデューサーが必要です。出力 内の行の数が多すぎる場合は、単一減速は、それがどのように決定するか

Hive - LanguageManual - Sort By - Syntax of Order By

+0

... 仕上がりに非常に長い時間がかかる可能性があり、どのように多くのマップ&タスクを削減することになりますクエリの実行に必要ですか?減速機が最終出力をソートする場所(どのメモリ内)? –

+0

データソースサイズに基づいてマップします(ただし、一部のデータフォーマットは1マップに制限されています)。減速機 - 1 –

+0

リダクターが最終出力をソートする場所(メモリ内)?あなたが言ったように –

関連する問題