Hadoopプログラミングの新機能です。出力ファイルに書き込む行数の制御
私は、n行後に出力ファイルに<k3,v3>
を書き留めたくないという状況があります。
私のプログラムでは、出力ファイルはk3
に基づいてソートされると確信していますが、リスト全体が必要なわけではありません。私は最初のnだけが欲しい。
これを行うためのメカニズムがHadoopにありますか?
Hadoopプログラミングの新機能です。出力ファイルに書き込む行数の制御
私は、n行後に出力ファイルに<k3,v3>
を書き留めたくないという状況があります。
私のプログラムでは、出力ファイルはk3
に基づいてソートされると確信していますが、リスト全体が必要なわけではありません。私は最初のnだけが欲しい。
これを行うためのメカニズムがHadoopにありますか?
同じクラス/ APIが見つかりませんでした。
しかし、OutputCollector.collect()がReduce関数で呼び出されると、カウンタをインクリメントすることができます。カウンタが特定の値に達すると、OutputCollector.collect()の呼び出しを停止します。
n個の行がo/pに書き込まれた後でも、削減タスクが実行され続けるため、CPUサイクルが浪費されます。この問題に対するより良いアプローチがあるかもしれません。
ありがとうございます。私は同じアプローチを考えて、より良い方法があるかどうか探しました。 – chet
入力 - >出力サンプルとマッパー/レジューサーコードを入力してください。 – frail