PDF、MS Word、PPTなどのさまざまな形式のさまざまなドキュメントがありますが、プレーンテキスト等であり、これらは、HDFSに格納されている。私はelasticsearchインデックスにコンテンツを抽出し、同じもののフルテキスト検索システムを構築する必要があります。私はES-Hadoopについて読んでいます。しかし、私はこのケースではとES-のHadoopがリアルタイムかない(場合には、私はそれを使用する)であるかどうか ESのまたはアパッチティカプラグインマッパー-添付ファイルを使用できるかどうか少し混乱しています。さまざまなドキュメント(pdf、ppt、MSワード、プレーンテキストなど)を使用した検索可能なアーカイブのベストプラクティス
私は、ドキュメントからESインデックスにコンテンツを抽出し、それを検索する正しい方法が何であるか不思議です。
ご協力いただければ幸いです。
ESマッパーアタッチメントプラグインまたはApacheティカを使用しているかどうかについての質問についてサチン
mapper attachmentsプラグインのソースとしてHDFSの場所(docファイルが格納されている場所)を使用できますか?私はファイルをESに保存したくない。ファイルはHDFSになければならず、ESに格納されるテキストコンテンツとメタデータだけでなければならない。 – Sachin
このようなオプションはわかりません。マッパー添付ファイルDSLでは、ファイルを64-Baseでエンコードし、エンコードされたデータを値として添付ファイルのフィールドタイプに追加する必要があります。 DSLへの[link](https://github.com/elastic/elasticsearch-mapper-attachments)です。ドキュメントのメタデータを添付ファイルのプラグインに書き込んだり、後でそれらを照会することはできます。 –