2017-07-03 8 views
5

Apache Sparkを使ってpdf/audio/videoファイル(非構造化データ)を読むことはできますか? たとえば、私は何千ものPDF請求書を持っており、それらからデータを読み込み、その上でいくつかの分析を実行したいと考えています。構造化されていないデータを処理するにはどのような手順を実行する必要がありますか?Apache Sparkを使ってpdf/audio/videoファイル(非構造化データ)を読むことはできますか?

+1

'reading pdf spark'を検索すると、http://blog.cloudera.com/blog/2015/10/how-to-index-scanned-pdfs-at-scale-using-コード数が50行未満の場合/ –

+1

StackOverflowのオフトピックの場合は、オフサイトのリソース推奨。私はいくつかのワークフロー、自分で実装する必要がある詳細 –

答えて

6

はい、そうです。 sparkContext.binaryFilesを使用してファイルをバイナリ形式でロードし、次にmapを使用して、Apache TikaまたはApache POIでバイナリを解析するなど、別の形式に値をマップします。

擬似コード:

val rawFile = sparkContext.binaryFiles(... 
val ready = rawFile.map (here parsing with other framework 

重要である何私の答えでは先に述べたように、解析は、他のフレームワークで行われている必要があります。マップは引数としてInputStreamを取得します

関連する問題