Spark 2.0で圧縮されたgsipped csvファイルをロードする

Spark 2.0のPysparkにgzip圧縮CSVファイルをロードするにはどうすればよいですか？Spark 2.0で圧縮されたgsipped csvファイルをロードする

私は次のように圧縮されていないCSVファイルを読み込むことができることを知っている：

spark.read.format("csv").option("header",   
           "true").load("myfile.csv")

または

spark.read.option("header", "true").csv("myfile.csv")

出典

2016-11-02 femibyte

gzip形式のCSVファイルには注意してください。分割可能ではないため、ファイルごとに1つのパーティションが作成されます。詳細については、この質問/回答を参照してください：http://stackoverflow.com/questions/40336485/spark-local-mode-all-jobs-only-use-one-cpu-core/40370994#40370994 – Tim

あなたはspark.sparkContext.textFile("file.gz")

を使用することができ、ファイルの拡張子が.gz

出典

2016-11-02 10:49:23 Shankar

これは、データフレームではありません。 rddをDataFrameに変換するのではなく、DataFrameに直接読み込む方法はありますか？ – femibyte

実際にはgzipで圧縮されたcsvファイルでは以下のように動作します： '' 'spark.read.option（" header "、" true "）.csv（" myfile.csv "）' '' – femibyte

する必要があります私はちょうど次の作品が発見されたgzip形式のCSVファイル：

spark.read.option("header", "true").csv("myfile.csv")

出典

2016-11-02 14:10:59 femibyte

Spark 2.0で圧縮されたgsipped csvファイルをロードする

答えて

関連する問題