Apache Sparkのデータフレームのメジアン値を見つけるには

私はApacheテーブルにDBテーブルをインポートしたところで問題を解決しています。Apache Sparkのデータフレームのメジアン値を見つけるには

私はそれをDataFrameに変換しました。次に、RegisterTempTableを実行して、ハイブクエリを使用できるようにしました。

私はAmountと呼ばれるフィールドの中央値を見つけることができませんよしかし

sqlContext.sql("select avg(Amount) from Table1001").show

、などの他の数学演算を実行することができますよ。このDataFrameの中央値を見つける方法はありますか？

適切に適切な溶液を用意してください。

出典

2017-12-27 Sanju Thomas

あなたはどのように見つけるかを使用することができます中央値？ステップ1 - ソート。ステップ2 - 中央の要素を選択します。 –

[Apache Sparkで正確な中央値を計算するにはどうすればよいですか？]（https://stackoverflow.com/questions/28158729/how-can-i-calculate-exact-median-with-apache-spark） – philantrovert

可能な重複[スパークを使用したメジアンとクオンタイルの検索方法]（https://stackoverflow.com/questions/31432843/how-to-find-median-and-quantiles-using-spark） – user8371915

あなたは::この操作は近似解ではなく、正確な1のために最適化され、中央値を計算する

val medianArray = yourDataFrame.stat.approxQuantile("Amount", Array(0.5), 0) 

val median = medianArray(0)

注意をDataFrameStatFunctions.approxQuantileを使用することができます。しかし、我々は正確な解決策を提供したいので、relativeError = 0を提供します。この操作は高価になる可能性があります。

出典

2017-12-27 07:58:25

エラーメッセージ：error：value approxQuantileはorg.apache.spark.sql.DataFrameStatFunctionsのメンバーではありません。パッケージをインポートする必要はありますか？ –

スパークバージョン？これはSpark 2.0で追加されました。 –

中央値を取得するには、あなたがHiveContext（https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-Built-inAggregateFunctions(UDAF)）を持っている場合、あなたはHIVE UDAF percentileを使用することができます。

sqlContext.sql("select percentile(Amount, 0.5) from Table1001").show

パフォーマンスが問題であるならば、あなたもpercentile_approx

出典

2017-12-27 11:04:08

Apache Sparkのデータフレームのメジアン値を見つけるには

答えて

関連する問題