2016-07-18 11 views
0

私は大量のxmlファイルをまとめて1つのファイルと多くのそのようなzipファイルにまとめました。私は前にMapreduceを使用して、カスタムinputformatとrecordreaderを使ってxmlを解析し、splittable = falseを設定し、zipとxmlファイルを読み込んでいました。Sparkで圧縮されたxmlファイルを読む

私はSparkを初めて使用しています。私がMRでやり遂げることができるように、スパークがzipファイルを分割して複数のzipを並行して処理するのを防ぐ方法を教えてもらえますか?

+0

あなたは例またはユースケースありがとう!私はあなたの質問を理解することができないので、 –

+0

私はいくつかの大きなxmlを持っていて、それらは複数のzipに圧縮されています。私はちょうどブロックサイズに基づいて分割されずに私のzipとxmlを解析したい。 – Pooja3101

答えて

0

AFAIk!あなたの質問に対する答えは、@holdenによってhereに提供されています: ご覧ください。ありがとう:)

+1

これは非常に便利ですが、答えはそのままです。質問を重複したものとしてマークし、リンク先を選択して閉じるか、他の回答にリンクすることもできます。また、リンク先の重要なビットを引用するために回答を編集することもできます。 –

+0

あなたが共有したリンクを通過しました。私はちょうど1つの疑いがあります。どのように私は分割されずに単一のファイルを解析することができます。 MRのように、自分のカスタムinputformatクラスでsplitable = falseプロパティを使用しています。どのように私はスパークで同じことを達成することができます。 – Pooja3101

+0

私は以下のように試みましたが、エラーが発生しました。=>新しいZipInputStream(content.open)} > >:95:エラー:型が一致しません。 >実測値:java.util.zip.ZipInputStreamクラス >必須:[?] TraversableOnce >ヴァルzipFileRDD = sc.binaryFiles(zipファイル).flatMap {場合(名前、コンテンツ)=> 新しいZipInputStream(content.open)} – Pooja3101

関連する問題