-1
私はPysparkで作業していますが、私はSpark 1.6を持っています。そして私はいくつかの値をグループ化したいと思います。Pysparkとのマージ
+--------+-----+
| Item |value|
+--------+-----+
| A | 187|
| B | 200|
| C | 3|
| D | 10|
Iグループに一緒に以下の10%の合計値を持つすべてのアイテム
したがって、新しいテーブルが
ように見える(この場合には、CとDが新たな値にグループ「その他」であろう)になります 3210いくつかの機能や簡単な方法を知っていますか? 多くのご協力ありがとうございます
ありがとうございます、あなたの答えはverry役立つでしょう。 – Raouf