私はSpark 2.1を使用します。UTF-8エンコーディングでCSVファイルを解析するには?
入力csvファイルは、このCSVファイルを解析中
の下に表示のようなUnicode文字を含む、出力が
私はビューにMSエクセル2010を使用以下のように示されていますファイル。
Javaコード使用は、私が入力と出力が同じで取得できますか
@Test
public void TestCSV() throws IOException {
String inputPath = "/user/jpattnaik/1945/unicode.csv";
String outputPath = "file:\\C:\\Users\\jpattnaik\\ubuntu-bkp\\backup\\bug-fixing\\1945\\output-csv";
getSparkSession()
.read()
.option("inferSchema", "true")
.option("header", "true")
.option("encoding", "UTF-8")
.csv(inputPath)
.write()
.option("header", "true")
.option("encoding", "UTF-8")
.mode(SaveMode.Overwrite)
.csv(outputPath);
}
のですか?
おかげ@Jacekに、私は、fileコマンドを使用してファイルのエンコーディングをチェックし、ファイルのエンコーディングを知るようになった、実際にISO-8859-1である、だから私はそれに応じて、このファイルを解析され、希望しまいました結果。 –