0
私は最適化目的のために複数の挿入クエリを使用していますが、確かにそれは私を大いに助けますが、毎日実行すると3から4までのIDを見つけることができます10百万)が減速機に過度の時間を要した。この問題を解決するために、私はskewjoin最適化のプロパティを実装しているが、私がハイブ:複数の挿入クエリで:FAILED:SemanticException発生しないでください
set hive.exec.compress.output=true;
set mapreduce.output.fileoutputformat.compress=true;
set mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;
set mapreduce.output.fileoutputformat.compress.type=BLOCK;
SET hive.optimize.skewjoin=true;
set hive.exec.compress.intermediate=true;
set hive.intermediate.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
set hive.intermediate.compression.type=BLOCK;
set hive.optimize.skewjoin=true;
set hive.skewjoin.key=100000;
set hive.skewjoin.mapjoin.map.tasks=10000;
set hive.skewjoin.mapjoin.min.split=33554432;
を使用しています
"FAILED: SemanticException Should not happened"
プロパティは、親切に私は、このスキューデータを最適化する方法を提案する。(各新しい実行とのidのは違うだろう投げ)
答えにいくつかの説明を追加できますか? – Tushar
ようこそスタックオーバーフロー!このコードは質問に答えるかもしれませんが、問題の内容とコードがどのように問題に取り組むかを記述する方が良いでしょう。将来的には、いくつかの情報、[すばらしい答えを解く方法](http://stackoverflow.com/help/how-to-answer)on Stack Overflowを参照してください。 – dirtydanee