集計のためのSparkデータセットまたはデータフレーム

Sparkバージョン2.0のMapRクラスタ現在、TEZエンジンで実行されているHiveクエリのパフォーマンス差を測定し、それをSpark-SQLで実行すると、 .hqlファイル内のsqlクエリを実行し、シェルファイル経由で呼び出します。集計のためのSparkデータセットまたはデータフレーム

クエリには複数のステージが作成され、このシナリオでは最も最適な選択肢は何かが発生します。

はそれがスパークでのデータセットがcount..etc GROUPBY、MAX、MIN、などの集計を実行するためのデータフレームよりも低速であることは事実です。..

だから、すべての領域のデータフレームは、データセットよりも良好に機能し、その逆も何で... ？

2017-10-17 AJm

Spark 2.0では、Dataset [Row]はDataframeのエイリアスなので、パフォーマンス上の問題はありません。

ご覧ください。

2017-10-17 20:24:08

は、だからそれは非常に類似したすべての面でのパフォーマンスであるスパークデータセット＆データフレームを意味しているの..？ – AJm

@Aijazはいデータセット=データフレーム+タイプの安全性 –

答えて