2017-03-08 15 views
0

私はこの列に欠損値を含むサンプルデータを使用していますが、欠損値を含むすべての行を削除したいとします。Pysparkの欠損値を取り除く方法

enter image description here

データの説明は次のとおりです。

enter image description here

私はオンライン検索とdropnaのみデータフレームのために働くように思えるしました。私はデータフレームを作成するときしかし、私はNAの、私はデータフレームを作成することができないからだと推測するエラーメッセージ enter image description here

auto_DF_prep = auto_RDD.map(lambda e: Row(mpg = float(e[0]), cylinders = int(e[1]), displacement = float(e[2]), horsepower = float(e[3]), weight = float(e[4]), acceleration = float(e[5]), year = int(e[6]), origin = int(e[7]), name = e[8])) 

を得ました。私はどのように進めるべきですか?前もって感謝します! autoを想定し

答えて

0

DataFrame

auto.na.drop()

です参照してください:あなたのcsvファイルでDataFrame.dropna()

+0

が、私は 'オート= sc.textFile( "///home/cloudera/Downloads/auto_mpg_original.csvファイル")をやったことあるcsvファイルに空の文字列を使用しています。 flatMap(lambda x:x.split( "、")) 'これでRDDを作成しました。それから、元の 'auto_DF_prep = ...'のコードを使ってDFを作成しようとしましたが、そのエラーが発生しました。データフレームを作成するにはどうしたらいいですか? – vivi11130704

+0

これは、Spark 2.xを使用しているかどうかによって異なります –

0

NAを非数値を表すないstr('NA')にちょうど等しいです。 auto_RDD =自動:

null値は、だからここ

関連する問題