私は大きなデータで新しいです! EMRクラスター上で、大量の小さなファイル(pdfとppt/pptx)をスパークで大量に保存する方法と、どのように処理するかについていくつか質問があります。大量の小さなファイルをスパークで保存して処理する
私の目標は、データ(pdfとpptx)をHDFS(またはクラスタのあるタイプのデータストア)に保存し、このファイルからsparkからコンテンツを抽出し、elasticsearchやリレーショナルデータベースに保存することです。
HDFSにデータを保存するときに小さなファイルの問題を読んだことがありました。大量のpdf & pptxファイル(最大サイズ100〜120 MB)を節約する最も良い方法は何ですか? Sequence FilesとHAR(hadoopアーカイブ)について読んだことがありますが、どれも正確にはわかりませんし、何がベストかを理解していません。
このファイルを処理する最適な方法は何ですか?私はいくつかのソリューションがFileInputFormatまたはCombineFileInputFormatかもしれないことを理解していましたが、再びそれがどのくらい正確であるかはわかりません。私はクラスタがボトルネックの場合に置かれるので、分離されたタスクですべての小さなファイルを実行できないことを知っています。
ありがとう!
私はHadoopでPDFファイルを処理しました。このリンクはhttp://ybhavesh.blogspot.in/2015/12/poc-sensex-log-data-processing-pdf-file.htmlに役立ちます(注:処理はMapreduceで行われた) – Bhavesh