2016-11-28 13 views
0

HDP2.5を使用していて、HBaseの一部の行を処理するジョブがあります。私はジョブの開始キーと終了キーを設定し、mapreduce.input.fileinputformat.split.maxsizeにマッパーの量を増やすように設定しようとしましたが、分割されたmaxsize値とは無関係に、25マップタスクを取得しました...Hadoopがmapreduce.input.fileinputformat.split.maxsizeを無視して分割を作成する

2,4 、dfs.blocksizeの8倍です。例えば。 mapreduce.input.fileinputformat.split.maxsize=67108864 dfs.blocksize=134217728

アプリケーションマネージャのログを有効にしても、YARNの決定方法に関する有用なヒントは、マップタスクの量には反映されませんでした。私はちょうどのようなメッセージを表示します: INFO util.RegionSizeCalculator: Calculating region sizes for table "my_table" ... INFO mapreduce.JobSubmitter: number of splits:25

ジョブのマップタスクの数をバンプアップする正しい方法は何でしょうか?

答えて

0

マップタスクは、HBaseMapReduceUtilのデフォルトで、リージョン数にマップされます。スプライスマシン(オープンソース)では、hbaseストアファイルに問い合わせることにより、より多くのカットポイントを生成します。また、HBaseのリモートからの読み込みに対するmemstoreからのインクリメンタルデルタを使ってストアファイルを直接読み取る方法も追加しました(遅い)。

興味があれば、コードへのリンクを投稿できますか?

関連する問題