2017-09-21 3 views
1

Apache Sparkで以下の構造のファイルを読みたいと思います。デリミタcsv reader spark

628344092\t20070220\t200702\t2007\t2007.1370 

区切り記号は\ tです。 spark.read.csv()を使用してこれを実装するにはどうすればよいですか?

このファイルを読むには年齢がかかるので、csvはパンダを使用するには大きすぎます。

pandas.read_csv(file, sep = '\t') 

ありがとうございました!

答えて

2

delimiterの代わりにspark.read.option("delimiter", "\t").csv(file)またはsepを使用してください。

それは文字通り\tだ場合は、いないタブの特殊文字、ダブル\を使用します。spark.read.option("delimiter", "\\t").csv(file)

+0

はspark.readまたは何か他のドキュメントをチェックする任意のウェブサイトはありますか?答えをありがとう! :) – inneb

+1

CSVのサポートは、このプロジェクトのマージです:https://github.com/databricks/spark-csvそれはいくつかのドキュメントがあります。私は個人的にコードをチェックしています:) –

関連する問題