Spark 2.0のPysparkにgzip圧縮CSVファイルをロードするにはどうすればよいですか?Spark 2.0で圧縮されたgsipped csvファイルをロードする
私は次のように圧縮されていないCSVファイルを読み込むことができることを知っている:
spark.read.format("csv").option("header",
"true").load("myfile.csv")
または
spark.read.option("header", "true").csv("myfile.csv")
gzip形式のCSVファイルには注意してください。分割可能ではないため、ファイルごとに1つのパーティションが作成されます。詳細については、この質問/回答を参照してください:http://stackoverflow.com/questions/40336485/spark-local-mode-all-jobs-only-use-one-cpu-core/40370994#40370994 – Tim