3
データフレーム内にいくつかのレベルを持つカテゴリの列があります。これらの頻度の低いレベルを置き換えたいと思います。指定されたパーセンテージ)を最も頻繁に使用します。どのように私はエレガントでコンパクトな方法でそれを実現するだろうか?PySparkは、頻度の低いアイテムを最も頻繁なアイテムに置き換えます。
以下の例では、指定した頻度を0.3と設定した場合、レベル「c」は頻度が0.3以下の1/6なのでレベル「a」に置き換えてください。
from pyspark.sql import Row
row = Row("foo")
df = sc.parallelize([ row("a"), row("b"), row("c"), row("a"), row("a"), row("b") ]).toDF()
@Wayneたぶん、あなたは(https://stackoverflow.com/help/someone-answers)[答えを受け入れる]すべきです。 – Prem
プレミアムありがとう、それは動作します! – Wayne
助けてくれてうれしいです:) – Prem