出力ファイルに書き込む行数の制御

私は、n行後に出力ファイルに<k3,v3>を書き留めたくないという状況があります。

私のプログラムでは、出力ファイルはk3に基づいてソートされると確信していますが、リスト全体が必要なわけではありません。私は最初のnだけが欲しい。

これを行うためのメカニズムがHadoopにありますか？

2011-09-28 chet

入力 - >出力サンプルとマッパー/レジューサーコードを入力してください。 – frail

同じクラス/ APIが見つかりませんでした。

しかし、OutputCollector.collect()がReduce関数で呼び出されると、カウンタをインクリメントすることができます。カウンタが特定の値に達すると、OutputCollector.collect（）の呼び出しを停止します。

n個の行がo/pに書き込まれた後でも、削減タスクが実行され続けるため、CPUサイクルが浪費されます。この問題に対するより良いアプローチがあるかもしれません。

2011-09-29 07:25:41

ありがとうございます。私は同じアプローチを考えて、より良い方法があるかどうか探しました。 – chet

答えて