tableA.col1 = tableB.col1およびtableA.col2 = tableB.col2でtableA left join tableBのようなハイブクエリを実行しています。 tableAには18億のデータがあり、tableBには3,100万のレコードがあります。私の参加の最後の減量は完了していないし、それは長い間実行されています。ハイブで長時間実行されるクエリの原因となるスキューデータ
スキューのデータが原因である可能性があります。 MAPJOINを試してみましたが、tableAの膨大なデータ量のためにクエリが失敗しました。より良い方法でこれらを処理できる他のオプションはありますか?私は長い間実行されている見ることができます
タスクは、そのステップでやろうとしている正確に何
reduce > copy task(attempt_1498868574233_185232_m_001336_0 succeeded at 8.94 MB/s) Aggregated copy rate(1121 of 2532 at 108.94 MB/s)
次のようにありますか?偽
追加で:
こちらをご覧ください:https://stackoverflow.com/a/37414611/2700344 – leftjoin
@leftjoin、手動の回避策の必要はありませんが。 Hiveはスキュード結合をサポートしています。 –