2017-05-24 28 views
0

データフレームがあり、列(文字列)のいずれかにNULL値のすべての行をドロップしたいとします。私は簡単にそれの数を得ることができます:1つの列にNULLを持つ行を削除する方法pyspark

df.filter(df.col_X.isNull()).count() 

私はそれを次のコマンドを使用して削除しようとしました。それは実行しますが、カウントはまだ私は別の試みを試みたが、それは、オブジェクトが呼び出すことはできません」というエラーを返すように正

df.filter(df.col_X.isNull()).drop() 

を返します。

答えて

4

データフレームは不変です。 null値を削除するフィルタを適用するだけで、null値を持つレコードを持たない新しいデータフレームが作成されます。

df = df.filter(df.col_X. isNotNull()) 
4

subsetdropいずれかを使用します。

df.na.drop(subset=["col_X"]) 

またはis_NotNull

df.filter(df.col_X.isNotNull()) 
関連する問題