2016-08-18 4 views
0

私は最適化目的のために複数の挿入クエリを使用していますが、確かにそれは私を大いに助けますが、毎日実行すると3から4までのIDを見つけることができます10百万)が減速機に過度の時間を要した。この問題を解決するために、私はskewjoin最適化のプロパティを実装しているが、私がハイブ:複数の挿入クエリで:FAILED:SemanticException発生しないでください

set hive.exec.compress.output=true; 
set mapreduce.output.fileoutputformat.compress=true; 
set mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec; 
set mapreduce.output.fileoutputformat.compress.type=BLOCK; 
SET hive.optimize.skewjoin=true; 
set hive.exec.compress.intermediate=true; 
set hive.intermediate.compression.codec=org.apache.hadoop.io.compress.SnappyCodec; 
set hive.intermediate.compression.type=BLOCK; 
set hive.optimize.skewjoin=true; 
set hive.skewjoin.key=100000; 
set hive.skewjoin.mapjoin.map.tasks=10000; 
set hive.skewjoin.mapjoin.min.split=33554432; 

を使用しています

"FAILED: SemanticException Should not happened" 

プロパティは、親切に私は、このスキューデータを最適化する方法を提案する。(各新しい実行とのidのは違うだろう投げ)

答えて

0
set hive.optimize.skewjoin=true; ---> set hive.optimize.skewjoin=false; 
+1

答えにいくつかの説明を追加できますか? – Tushar

+0

ようこそスタックオーバーフロー!このコードは質問に答えるかもしれませんが、問題の内容とコードがどのように問題に取り組むかを記述する方が良いでしょう。将来的には、いくつかの情報、[すばらしい答えを解く方法](http://stackoverflow.com/help/how-to-answer)on Stack Overflowを参照してください。 – dirtydanee

関連する問題