私はcsvファイルにクライアント・データベースをエクスポートして、使用してスパークし、それをインポートしようとしました:いくつかの検証を行った後破損した列を含むCSVデータセットをロードするにはどうすればよいですか?
spark.sqlContext.read
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("table.csv")
をカラムは時々キャリッジを持っているので、私はいくつかのIDがnull
だったことを知ります戻る。そして、それはすべての次の列をドミノ効果で移動させ、すべてのデータを破壊しました。
奇妙なことは、printSchema
を呼び出すときに得られるテーブル構造が良好であるということです。
問題を解決するにはどうすればよいですか?
問題を強調するデータ(入力と出力)のサンプルを入力してください – cheseaux
エクスポート元に戻り、そこで作業する必要があります。スパークはそれをうまく扱いません。 – eliasah