2016-07-01 4 views
0

sparkとscalaを使用してデータフレームの度数分布(各列の最も一般的な要素とそれが現れた回数を返します)を計算します。私はDataFrameStatFunctionsライブラリを使用しようとしましたが、数値型の列のみのデータフレームをフィルタリングした後、ライブラリから関数を適用できません。これを実行してUDFを作成する最善の方法はありますか?spark/scalaのデータフレームの頻度分布を計算する方法を探してください

答えて

6

あなたはそれがあなたのユニークなエントリの頻度数が表示されます val newDF = df.groupBy("columnName").count() newDF.show()

を使用することができます。

関連する問題