デリミタcsv reader spark

Apache Sparkで以下の構造のファイルを読みたいと思います。デリミタcsv reader spark

628344092\t20070220\t200702\t2007\t2007.1370

区切り記号は\ tです。 spark.read.csv（）を使用してこれを実装するにはどうすればよいですか？

このファイルを読むには年齢がかかるので、csvはパンダを使用するには大きすぎます。

pandas.read_csv(file, sep = '\t')

ありがとうございました！

2017-09-21 inneb

delimiterの代わりにspark.read.option("delimiter", "\t").csv(file)またはsepを使用してください。

それは文字通り\tだ場合は、いないタブの特殊文字、ダブル\を使用します。spark.read.option("delimiter", "\\t").csv(file)

2017-09-21 17:21:33

はspark.readまたは何か他のドキュメントをチェックする任意のウェブサイトはありますか？答えをありがとう！ :) – inneb

CSVのサポートは、このプロジェクトのマージです：https://github.com/databricks/spark-csvそれはいくつかのドキュメントがあります。私は個人的にコードをチェックしています:) –

答えて