私はこの列に欠損値を含むサンプルデータを使用していますが、欠損値を含むすべての行を削除したいとします。Pysparkの欠損値を取り除く方法
データの説明は次のとおりです。
私はオンライン検索とdropnaのみデータフレームのために働くように思えるしました。私はデータフレームを作成するときしかし、私はNAの、私はデータフレームを作成することができないからだと推測するエラーメッセージ
auto_DF_prep = auto_RDD.map(lambda e: Row(mpg = float(e[0]), cylinders = int(e[1]), displacement = float(e[2]), horsepower = float(e[3]), weight = float(e[4]), acceleration = float(e[5]), year = int(e[6]), origin = int(e[7]), name = e[8]))
を得ました。私はどのように進めるべきですか?前もって感謝します! auto
を想定し
が、私は 'オート= sc.textFile( "///home/cloudera/Downloads/auto_mpg_original.csvファイル")をやったことあるcsvファイルに空の文字列を使用しています。 flatMap(lambda x:x.split( "、")) 'これでRDDを作成しました。それから、元の 'auto_DF_prep = ...'のコードを使ってDFを作成しようとしましたが、そのエラーが発生しました。データフレームを作成するにはどうしたらいいですか? – vivi11130704
これは、Spark 2.xを使用しているかどうかによって異なります –