2017-02-09 10 views
0

resultdateフィールドの日付と時間に従ってテーブルをパーティション化する必要があります。フォーマットは2/5/2013 9:24:00 AMです。ダイナミックパーティショニングを使用するテーブルでHiveクエリを最適化する方法

私は日付&時間で動的パーティショニングを使用して、私は約1.5万レコードを持っており、完了するまでに約4時間を取っている

insert overwrite table partition(date, hour) 
{ 
select x,y,z, date , hour 
} 
from table 1. 

をしています。これは正常ですか?最適化する方法は何でしょうか?

答えて

0

クラスタサイズを大きくしないと、時間がかかります。

0

これはあなたが1つのノードと仮想マシンで作業している場合を除き:) ..それはいくつかの中で、デフォルトでtrueに設定されている理由私はわからない

set hive.optimize.sort.dynamic.partition=false; 

このフラグを設定してみてください、正常ではありませんディストロス。

0

はTEZエンジンは、より良いあなたの実行時間を作るために使用することができます

  • チェックするかどうか、これまで多くのシナリオがあります。
  • ファイルを保存する方法を変更できるかどうか、RC形式が役立つ可能性があります。
  • hive.exec.max.dynamic.partitions & hive.exec.max.dynamic.partitionsを最適な値に最適化します。
  • クラスタを増やすことも可能です(実行可能な場合)
関連する問題