2016-11-02 16 views
0

Spark 2.0のPysparkにgzip圧縮CSVファイルをロードするにはどうすればよいですか?Spark 2.0で圧縮されたgsipped csvファイルをロードする

私は次のように圧縮されていないCSVファイルを読み込むことができることを知っている:

spark.read.format("csv").option("header",   
           "true").load("myfile.csv") 

または

spark.read.option("header", "true").csv("myfile.csv") 
+0

gzip形式のCSVファイルには注意してください。分割可能ではないため、ファイルごとに1つのパーティションが作成されます。詳細については、この質問/回答を参照してください:http://stackoverflow.com/questions/40336485/spark-local-mode-all-jobs-only-use-one-cpu-core/40370994#40370994 – Tim

答えて

0

あなたはspark.sparkContext.textFile("file.gz")

を使用することができ、ファイルの拡張子が.gz

+0

これは、データフレームではありません。 rddをDataFrameに変換するのではなく、DataFrameに直接読み込む方法はありますか? – femibyte

+0

実際にはgzipで圧縮されたcsvファイルでは以下のように動作します: '' 'spark.read.option(" header "、" true ").csv(" myfile.csv ")' '' – femibyte

1

する必要があります私はちょうど次の作品が発見されたgzip形式のCSVファイル:

spark.read.option("header", "true").csv("myfile.csv") 
関連する問題