2016-07-25 4 views
0

私は、データの欠落についての分類器をテストしていて、スパークの行をランダムに削除したいとします。スパークランダムに行をドロップ

n行ごとに何かしたい、20行を削除したい。

これを行うにはどうすればよいでしょうか?

+0

すべてのn番目の行は、*ランダムではありません*:

あまりエレガントで別のオプションは、あなたのDataFrameRDDに変換し、多分何かのように、indexによってzipWithIndexとフィルタを使用することです。 – Emre

+0

もしnが乱数であったならば。 – other15

答えて

1

ランダムであればsampleを使用できます。この方法では、DataFrameの一部を取ることができます。ただし、データをtrainingvalidationに分割することをお考えの場合は、randomSplitを使用してください。

df.rdd.zipWithIndex().filter(lambda x: x[-1] % 20 != 0) 
+0

こんにちはアルベルトはそれを試みます。私の目的は欠けているデータをシミュレートすることです。データが数秒間失われた場合、分類子がデータをストリーミングする方法を確認できます。 – other15

関連する問題