6
私は数百個のgzipテキストファイルを数百個のフォルダにそれぞれs3で持ち、それをspark.read.csv()
というデータフレームに読み込もうとしています。ファイルの中でSpark - 読み込み時に空のgzipファイルを読み飛ばしたり無視する方法
は、ゼロの長さの一部はエラーになり、あります
java.io.EOFException: Unexpected end of input stream
コード:
df = spark.read.csv('s3n://my-bucket/folder*/logfiles*.log.gz',sep='\t',schema=schema)
私はDROPMALFORMED
にmode
を設定し、sc.textFile()
で読んでみましたが、運がない。
空のファイルや壊れたgzipファイルを処理する最善の方法は何ですか?
この設定はどこに文書化されていますか?私はhttps://spark.apache.org/docs/latest/configuration.htmlで見つけられませんでした。 – leon
公式の文書ではありませんが、Jiraチケットに含まれています:https://issues.apache.org/jira /ブラウズ/ SPARK-19082 とこのプレゼンテーションでは、Xiao Liによって火花を寄贈された: https://fr.slideshare.net/databricks/building-robust-etl-pipelines-with-apache-spark/20 –