2017-04-05 21 views
-3

私は約17列のスパーク(scala)データフレーム "Marketing"を持ち、そのうちの1つを "残高"としています。この列のデータ型はIntです。私は中央値のバランスを見つける必要があります。私は昇順に整理することができますが、それ以降はどのように進めるのですか?私はスカラーのパーセンタイル関数を使うことができるというヒントを持っています。私はこのパーセンタイル関数について何も知らない。誰も助けることができますか?"Marketing"テーブルの "Balance"列の中央値の計算

+0

こんにちは、歓迎、StackOverflowへ。ヘルプページ、特に[ここではどのトピックについて聞かせていただけますか?](http://stackoverflow.com/help/on-topic)と[質問しないでください。」](http://stackoverflow.com/help/dont-ask)。さらに重要なことは、[Stack Overflow question checklist](http://meta.stackexchange.com/q/156810/204922)をお読みください。また、[最小、完全、および検証可能な例](http://stackoverflow.com/help/mcve)についても知りたいことがあります。 –

答えて

0

中央値は50パーセンタイルと同じです。あなたはハイブ機能を使用して気にしない場合は、次のいずれかを行うことができます

marketingDF.selectExpr("percentile(CAST(Balance AS BIGINT), 0.5) AS median") 

あなたは()の代わりに使用してpercentile_approxに見ることができます正確な数字を必要としない場合。

両方の機能のドキュメントは、hereです。

関連する問題