Big Dataプロジェクトの場合、繰り返しワークロードのメモリ内計算などの便利な機能を持つsparkを使用する予定です。ローカルファイルまたはHDFS上で実行できます。 しかし、公式のドキュメントでは、gzipファイルの処理方法に関するヒントは見つかりません。実際には、解凍されたファイルの代わりに.gzファイルを処理するのが非常に効率的です。 gzipファイルの読み込みを手動で実装する方法はあり
私はSparkにいる、私はAvroファイルからRDDを持っている。私は今、そのRDDにいくつかの変換を行うと、アブロファイルとして戻って保存したい: val job = new Job(new Configuration())
AvroJob.setOutputKeySchema(job, getOutputSchema(inputSchema))
rdd.map(elem => (new