私が持っている:S3上のファイルのApache Sparkで異なる列数の独自のヘッダーを持つファイルを処理するにはどうすればよいですか?
- 何百万
- 形式が、それは特別な治療を必要とするひどいDSV仕様であるため、ヘッダ行は、特殊文字で始まり、各ファイルが複数のヘッダを含めることができますhttps://github.com/databricks/spark-csvと互換性がありません
- 各ファイルにヘッダーがありますが、ヘッダーが変更されています(異なるフィールド/列)。このファイルには、パフォーマンス上の理由から
- 私はsmthを行う必要があります。
read.text("s3n://2016/01/*")
ヘッダーを取得する方法とそれに対応する行を一緒に処理する方法が見つかりません。 ImhoのカスタムPartitioner
は、ファイルごとのデータを分割することはできませんし、rdd/dataset/dataframe APIはこれを行う手段を提供していません...
ご存じですか?私はSpark 2.0.0を使うことができます。 Sparkはヘッダー付きのDSVファイルにはあまり親切ではないようですが、特にヘッダーが異なる場合は...
パフォーマンス上の理由から、あなたは絶対に 'read.text(" s3n:// 2016/01/* ")'をしたくありません。 http://tech.kinja.com/how-not-to-pull-from-s3-using-apache-spark-1704509219を参照してください。 – Marcin
いずれにしても、ファイル形式の詳細を教えてください。最も一般的な方法は、独自のリーダーを実装することです。 – Marcin