Pysparkの欠損値を取り除く方法

私はこの列に欠損値を含むサンプルデータを使用していますが、欠損値を含むすべての行を削除したいとします。Pysparkの欠損値を取り除く方法

データの説明は次のとおりです。

私はオンライン検索とdropnaのみデータフレームのために働くように思えるしました。私はデータフレームを作成するときしかし、私はNAの、私はデータフレームを作成することができないからだと推測するエラーメッセージ

auto_DF_prep = auto_RDD.map(lambda e: Row(mpg = float(e[0]), cylinders = int(e[1]), displacement = float(e[2]), horsepower = float(e[3]), weight = float(e[4]), acceleration = float(e[5]), year = int(e[6]), origin = int(e[7]), name = e[8]))

を得ました。私はどのように進めるべきですか？前もって感謝します！ autoを想定し

出典

2017-03-08 vivi11130704

はDataFrame

auto.na.drop()

です参照してください：あなたのcsvファイルでDataFrame.dropna()

出典

2017-03-08 23:30:48

が、私は 'オート= sc.textFile（ "///home/cloudera/Downloads/auto_mpg_original.csvファイル"）をやったことあるcsvファイルに空の文字列を使用しています。 flatMap（lambda x：x.split（ "、"）） 'これでRDDを作成しました。それから、元の 'auto_DF_prep = ...'のコードを使ってDFを作成しようとしましたが、そのエラーが発生しました。データフレームを作成するにはどうしたらいいですか？ – vivi11130704

これは、Spark 2.xを使用しているかどうかによって異なります –

NAを非数値を表すないstr('NA')にちょうど等しいです。 auto_RDD =自動：

null値は、だからここ

出典

2017-03-09 01:27:18

Pysparkの欠損値を取り除く方法

答えて

関連する問題