スパークランダムに行をドロップ

私は、データの欠落についての分類器をテストしていて、スパークの行をランダムに削除したいとします。スパークランダムに行をドロップ

n行ごとに何かしたい、20行を削除したい。

これを行うにはどうすればよいでしょうか？

2016-07-25 other15

すべてのn番目の行は、*ランダムではありません*：

あまりエレガントで別のオプションは、あなたのDataFrameがRDDに変換し、多分何かのように、indexによってzipWithIndexとフィルタを使用することです。 – Emre

もしnが乱数であったならば。 – other15

ランダムであればsampleを使用できます。この方法では、DataFrameの一部を取ることができます。ただし、データをtrainingとvalidationに分割することをお考えの場合は、randomSplitを使用してください。

df.rdd.zipWithIndex().filter(lambda x: x[-1] % 20 != 0)

2016-07-25 18:00:15

こんにちはアルベルトはそれを試みます。私の目的は欠けているデータをシミュレートすることです。データが数秒間失われた場合、分類子がデータをストリーミングする方法を確認できます。 – other15

答えて