5
Apache Sparkを使ってpdf/audio/videoファイル(非構造化データ)を読むことはできますか? たとえば、私は何千ものPDF請求書を持っており、それらからデータを読み込み、その上でいくつかの分析を実行したいと考えています。構造化されていないデータを処理するにはどのような手順を実行する必要がありますか?Apache Sparkを使ってpdf/audio/videoファイル(非構造化データ)を読むことはできますか?
'reading pdf spark'を検索すると、http://blog.cloudera.com/blog/2015/10/how-to-index-scanned-pdfs-at-scale-using-コード数が50行未満の場合/ –
StackOverflowのオフトピックの場合は、オフサイトのリソース推奨。私はいくつかのワークフロー、自分で実装する必要がある詳細 –