2016-09-15 6 views
0

私はApache MapReduceを使って生データを解析し、データベースにロードします。Mapperの出力キーの左端2桁でレデューサーを実行

My Mapperは、テキストファイルから生データ行を解析します。各行には固有の数値ID(キー)とキーと値のペア(値)の集合が割り当てられます。

My Reducerは、各行IDごとに、データベースのキーと値のペアを保存します。私は、任意の減速がそのIDに実行したくない、その後減速が10で始まるIDを処理するように、11、12など -

私は 左端の2桁てラインIDグループにしたい

11で始まるIDSを処理するすべてのレデューサーが終了する前に、12で始まります。

Apache MapReduceを使用して実装できますか?

ありがとうございます!

+0

これは可能なように私には聞こえません。なぜあなたはこれをしたいのですか? –

答えて

0

ID 10,11,12ごとに減速機と減速機の数を決めることができますが、Map Reduceは並列処理用に設計されているため、12を12にすることはできません。 1つのマップを使ってデータを基に依存関係を減らすジョブ。

おそらく、複数のMAP削減ジョブを試すことがあります。各ID

  • のための1つの出力と

    1. MAP ONLY JOB プロセス11のIdsは12件のIdsを処理するジョブの前にジョブを実行していることという方法で、手動またはOozieそれらあなたの減速をスケジュールします。

    希望しています。

  • 関連する問題