私は大量のxmlファイルをまとめて1つのファイルと多くのそのようなzipファイルにまとめました。私は前にMapreduceを使用して、カスタムinputformatとrecordreaderを使ってxmlを解析し、splittable = falseを設定し、zipとxmlファイルを読み込んでいました。Sparkで圧縮されたxmlファイルを読む
私はSparkを初めて使用しています。私がMRでやり遂げることができるように、スパークがzipファイルを分割して複数のzipを並行して処理するのを防ぐ方法を教えてもらえますか?
あなたは例またはユースケースありがとう!私はあなたの質問を理解することができないので、 –
私はいくつかの大きなxmlを持っていて、それらは複数のzipに圧縮されています。私はちょうどブロックサイズに基づいて分割されずに私のzipとxmlを解析したい。 – Pooja3101