2011-09-28 7 views
2

Hadoopプログラミングの新機能です。出力ファイルに書き込む行数の制御

私は、n行後に出力ファイルに<k3,v3>を書き留めたくないという状況があります。

私のプログラムでは、出力ファイルはk3に基づいてソートされると確信していますが、リスト全体が必要なわけではありません。私は最初のnだけが欲しい。

これを行うためのメカニズムがHadoopにありますか?

+0

入力 - >出力サンプルとマッパー/レジューサーコードを入力してください。 – frail

答えて

0

同じクラス/ APIが見つかりませんでした。

しかし、OutputCollector.collect()がReduce関数で呼び出されると、カウンタをインクリメントすることができます。カウンタが特定の値に達すると、OutputCollector.collect()の呼び出しを停止します。

n個の行がo/pに書き込まれた後でも、削減タスクが実行され続けるため、CPUサイクルが浪費されます。この問題に対するより良いアプローチがあるかもしれません。

+0

ありがとうございます。私は同じアプローチを考えて、より良い方法があるかどうか探しました。 – chet