Big Dataプロジェクトの場合、繰り返しワークロードのメモリ内計算などの便利な機能を持つsparkを使用する予定です。ローカルファイルまたはHDFS上で実行できます。Sparkのgzipサポート
しかし、公式のドキュメントでは、gzipファイルの処理方法に関するヒントは見つかりません。実際には、解凍されたファイルの代わりに.gzファイルを処理するのが非常に効率的です。
gzipファイルの読み込みを手動で実装する方法はありますか.gzファイルを読み込むときに既に自動的に解凍されていますか?
に制限されます私はあなたがgzipされたファイルに対して 'sc.textFileを()'を呼び出す場合は、スパークが得られますのでご注意ます1パーティションしかないRDD(0.9.0時点)。これは、gzippedファイルは[分割不可](http://mail-archives.apache.org/mod_mbox/spark-user/201310.mbox/%[email protected] .com%3E)。何とかRDDを再分割しないと、そのRDD上の操作は単一のコアに限定されます。 –
'logs = sc.textFile(" logs/*。bz2 ")'しようとすると、後続の 'logs.count()'でエラーが発生します。なぜどんなアイデア? – zbinsd
@zbinsdあなたは最後にそれを理解しましたか?私は、tar.gzファイルをロードするときに次のエラーが発生しています:JsonParseException:不正な文字((CTRL-CHAR、コード0)):トークンの間に通常の空白(¥r、¥n、¥t)のみが許可されます – Leon