Sparkバージョン2.0のMapRクラスタ 現在、TEZエンジンで実行されているHiveクエリのパフォーマンス差を測定し、それをSpark-SQLで実行すると、 .hqlファイル内のsqlクエリを実行し、シェルファイル経由で呼び出します。集計のためのSparkデータセットまたはデータフレーム
クエリには複数のステージが作成され、このシナリオでは最も最適な選択肢は何かが発生します。
はそれがスパークでのデータセットがcount..etc GROUPBY、MAX、MIN、などの集計を実行するためのデータフレームよりも低速であることは事実です。..
だから、すべての領域のデータフレームは、データセットよりも良好に機能し、その逆も何で... ?
は、だからそれは非常に類似したすべての面でのパフォーマンスであるスパークデータセット&データフレームを意味しているの..? – AJm
@Aijazはいデータセット=データフレーム+タイプの安全性 –