0
現在、データフレームを使用してハイブテーブルの特定の列を計算して集計するSparkアプリケーションを開発中です。Sparkの処理済みデータフレームレコードの最速の取得方法
count()
以外は、dataframes/rdd
の機能を使用します。処理されるレコードの数やデータフレームのレコード数を得るためには、より最適なアプローチがありますか?
特定の機能をオーバーライドするために必要なものがあるかどうかを知る必要があります。
すべての返信をいただければ幸いです。私は現在、Apache spark 1.6を使用しています。
ありがとうございます。
組み込み関数を使用するのが最適な方法です。 dataframe.count()関数を使用していませんか?そうでない場合は、サンプルコードで質問を更新できますか? –
データフレームのために 'select count(*)'を使うことができますが、なぜそれをしたいのか分かりません。 – philantrovert