0

Sparkバージョン2.0のMapRクラスタ 現在、TEZエンジンで実行されているHiveクエリのパフォーマンス差を測定し、それをSpark-SQLで実行すると、 .hqlファイル内のsqlクエリを実行し、シェルファイル経由で呼び出します。集計のためのSparkデータセットまたはデータフレーム

クエリには複数のステージが作成され、このシナリオでは最も最適な選択肢は何かが発生します。

はそれがスパークでのデータセットがcount..etc GROUPBY、MAX、MIN、などの集計を実行するためのデータフレームよりも低速であることは事実です。..

だから、すべての領域のデータフレームは、データセットよりも良好に機能し、その逆も何で... ?

答えて

0

Spark 2.0では、Dataset [Row]はDataframeのエイリアスなので、パフォーマンス上の問題はありません。

ご覧ください。

+0

は、だからそれは非常に類似したすべての面でのパフォーマンスであるスパークデータセット&データフレームを意味しているの..? – AJm

+0

@Aijazはいデータセット=データフレーム+タイプの安全性 –

関連する問題