Sparkの処理済みデータフレームレコードの最速の取得方法

現在、データフレームを使用してハイブテーブルの特定の列を計算して集計するSparkアプリケーションを開発中です。Sparkの処理済みデータフレームレコードの最速の取得方法

count()以外は、dataframes/rddの機能を使用します。処理されるレコードの数やデータフレームのレコード数を得るためには、より最適なアプローチがありますか？

特定の機能をオーバーライドするために必要なものがあるかどうかを知る必要があります。

すべての返信をいただければ幸いです。私は現在、Apache spark 1.6を使用しています。

ありがとうございます。

2017-05-08 Ivan

組み込み関数を使用するのが最適な方法です。 dataframe.count（）関数を使用していませんか？そうでない場合は、サンプルコードで質問を更新できますか？ –

データフレームのために 'select count（*）'を使うことができますが、なぜそれをしたいのか分かりません。 – philantrovert

別にデータフレーム/ RDDのカウント（）関数を使用してから、レコードの数、処理またはレコードデータフレームののカウント数を取得するためのより最適なアプローチがありますか？

いいえ。 RDDには、JDBCテーブルクエリやファイルスキャンなどの任意の複雑な実行計画がある可能性があるため、カウントに時間がかからないような方法はありません。

2017-05-08 14:37:03 halversonp

答えて