私は次のプロパティcombineInputFormatはHiveでどのように動作しますか?
の50個のファイルを持つ
- TextFileのフォーマットでハイブテーブルを持っているがフォーマットの記述」からテーブルパラメータに従います"コマンド
テーブルパラメータ:
COLUMN_STATS_ACCURATE true numFiles 50 totalSize 170774650
私はこのテーブルの上にCOUNT(*)の操作を行っておりますし、それがAWSのクラスタ上
- 4マッパーと1つの減速
- 1マッパーと私のスタンドアロンクラスタ上の1つの減速機で実行されています[疑似クラスタモードインストール]
両方ハイブセッションの最大分割サイズは256メガバイト
結合入力形式の仕組みを知りたいですか?
すべてのファイル/ブロックが同じマシン上にあり、結合されたファイルの合計サイズが最大分割サイズより小さいため、1台のマシンではデータがまとめられているため、1つの分割と1つのマッパーが求められている。
もう一方のケースでは、AWSクラスタでは4つのマッパーが使用されました。私は、CombineInputFormatはラック/マシンのローカリティを採用していますが、正確にはどのように使用していますか?
ご回答いただきありがとうございます。