Apache Sparkを使ってpdf/audio/videoファイル（非構造化データ）を読むことはできますか？

Apache Sparkを使ってpdf/audio/videoファイル（非構造化データ）を読むことはできますか？たとえば、私は何千ものPDF請求書を持っており、それらからデータを読み込み、その上でいくつかの分析を実行したいと考えています。構造化されていないデータを処理するにはどのような手順を実行する必要がありますか？Apache Sparkを使ってpdf/audio/videoファイル（非構造化データ）を読むことはできますか？

出典

2017-07-03 Rahul Kanodiya

'reading pdf spark'を検索すると、http://blog.cloudera.com/blog/2015/10/how-to-index-scanned-pdfs-at-scale-using-コード数が50行未満の場合/ –

StackOverflowのオフトピックの場合は、オフサイトのリソース推奨。私はいくつかのワークフロー、自分で実装する必要がある詳細 –

はい、そうです。 sparkContext.binaryFilesを使用してファイルをバイナリ形式でロードし、次にmapを使用して、Apache TikaまたはApache POIでバイナリを解析するなど、別の形式に値をマップします。

擬似コード：

val rawFile = sparkContext.binaryFiles(... 
val ready = rawFile.map (here parsing with other framework

重要である何私の答えでは先に述べたように、解析は、他のフレームワークで行われている必要があります。マップは引数としてInputStreamを取得します

出典

2017-07-03 16:38:40

Apache Sparkを使ってpdf/audio/videoファイル（非構造化データ）を読むことはできますか？

答えて

関連する問題