パフォーマンスを向上させるには(たとえば、結合の場合)、最初にテーブルの統計を計算することをお勧めします。ハイブやインパラのコンピューティングテーブルの統計情報は、apacheのスパークをスピードアップしますか?
私が行うことができますハイブで::インパラで
analyze table <table name> compute statistics;
:
compute stats <table name>;
(ハイブ-テーブルからの読み取り)私のスパークアプリケーションは、事前に計算された統計の恩恵を受けるでしょうか?はいの場合は、どちらを実行する必要がありますか?彼らはどちらも、ハイブ転移地に統計を保存していますか?現在の統計
注:私はヒントを発見したパラメータ
spark.sql.autoBroadcastJoinThreshold
用スパーク1.6.1(https://spark.apache.org/docs/1.6.1/sql-programming-guide.html)のドキュメントで :私は注意5.5.4 Clouderaの上でスパーク1.6.1を使用していますHive Metastore テーブルでのみサポートされています。このテーブルは、ANALYZE TABLE COMPUTE STATISTICSコマンド noscanが実行されています。