1
現在、Apache Sparkで初めての試みを行っています。 SQLContextオブジェクトを持つ.csvファイルを読みたいのですが、ファイルがヨーロッパのもの(桁区切り記号としてカンマと値区切り記号として使用されるセミコロン)であるため、Sparkは正しい結果を提供しません。 Sparkに別の.csv構文を従わせる方法はありますか?Sparkで欧州フォーマットの.csvデータを読む
val conf = new SparkConf()
.setMaster("local[8]")
.setAppName("Foo")
val sc = new SparkContext(conf)
val sqlContext = new SQLContext(sc)
val df = sqlContext.read
.format("org.apache.spark.sql.execution.datasources.csv.CSVFileFormat")
.option("header","true")
.option("inferSchema","true")
.load("data.csv")
df.show()
関連の.csvの行は次のようになります
04.10.2016;12:51:00;1,1;0,41;0,416
スパーク列として行全体を解釈します。 df.show()
プリント:それはdf.show()
も「...」それは今言う複数行のコンテンツを印刷するが、最終的に第COLにコンマで行を切断した作業取得する以前の試みは
+--------------------------------+
|Col1;Col2,Col3;Col4;Col5 |
+--------------------------------+
| 04.10.2016;12:51:...|
+--------------------------------+
。
のようにカスタム区切り文字をCSV形式に設定してください。どうもありがとう! :) –
カンマ( '、')で数字を小数点記号として正しく読み取っていますか? – Ahue