2016-12-09 14 views
-1

私はPysparkで作業していますが、私はSpark 1.6を持っています。そして私はいくつかの値をグループ化したいと思います。Pysparkとのマージ

+--------+-----+ 
| Item |value| 
+--------+-----+ 
| A  | 187| 
| B  | 200| 
| C  | 3| 
| D  | 10| 

Iグループに一緒に以下の10%の合計値を持つすべてのアイテム

したがって、新しいテーブルが

ように見える(この場合には、CとDが新たな値にグループ「その他」であろう)になります ​​3210

いくつかの機能や簡単な方法を知っていますか? 多くのご協力ありがとうございます

答えて

2

データフレームを2回フィルタリングして、保持したい値だけでデータフレームを取得し、残りのデータフレームだけでデータフレームを取得することができます。他のデータフレームで集約を実行して合計し、2つのデータフレームを結合して戻します。データに応じて、元のデータフレームをすべての前に維持して、2回評価する必要がないようにすることができます。

+0

ありがとうございます、あなたの答えはverry役立つでしょう。 – Raouf