0
私は、データの欠落についての分類器をテストしていて、スパークの行をランダムに削除したいとします。スパークランダムに行をドロップ
n行ごとに何かしたい、20行を削除したい。
これを行うにはどうすればよいでしょうか?
私は、データの欠落についての分類器をテストしていて、スパークの行をランダムに削除したいとします。スパークランダムに行をドロップ
n行ごとに何かしたい、20行を削除したい。
これを行うにはどうすればよいでしょうか?
ランダムであればsampleを使用できます。この方法では、DataFrame
の一部を取ることができます。ただし、データをtraining
とvalidation
に分割することをお考えの場合は、randomSplitを使用してください。
df.rdd.zipWithIndex().filter(lambda x: x[-1] % 20 != 0)
こんにちはアルベルトはそれを試みます。私の目的は欠けているデータをシミュレートすることです。データが数秒間失われた場合、分類子がデータをストリーミングする方法を確認できます。 – other15
すべてのn番目の行は、*ランダムではありません*:
あまりエレガントで別のオプションは、あなたの
DataFrame
がRDD
に変換し、多分何かのように、index
によってzipWithIndexとフィルタを使用することです。 – Emreもしnが乱数であったならば。 – other15