2017-07-26 13 views
-1

テキスト形式(wordとpdf)のプロジェクトレポートがたくさんあります。これらのファイルには、抽出したいデータが含まれています。参照、キーワード、名前など.......スキーマとしてコンテキストテーブルを使用してテキストファイルをハイブに保存する方法

これらのファイルをApache sparkで処理し、その結果をハイブに保存するには、 を使用します(スキーマとしてコンテキストテーブルを使用します)それは可能ですか?

これらのファイルの処理方法について私にお伝えしたいと思いますか?

+0

「スキーマとしてのコンテキストテーブル」の意味を明確にしてください。 –

+0

文書の字幕(はじめ、要約、参考文献など) –

答えて

0

私が理解する限り、Tikaを使用してファイルを解析し、hereのようにカスタムスキーマを手動で作成する必要があります。

これが役立つかどうか教えてください。乾杯。

関連する問題