0

PDF、MS Word、PPTなどのさまざまな形式のさまざまなドキュメントがありますが、プレーンテキスト等であり、これらは、HDFSに格納されている。私はelasticsearchインデックスにコンテンツを抽出し、同じもののフルテキスト検索システムを構築する必要があります。私はES-Hadoopについて読んでいます。しかし、私はこのケースではとES-のHadoopがリアルタイムかない(場合には、私はそれを使用する)であるかどうか ESのまたはアパッチティカプラグインマッパー-添付ファイルを使用できるかどうか少し混乱しています。さまざまなドキュメント(pdf、ppt、MSワード、プレーンテキストなど)を使用した検索可能なアーカイブのベストプラクティス

私は、ドキュメントからESインデックスにコンテンツを抽出し、それを検索する正しい方法が何であるか不思議です。

ご協力いただければ幸いです。

ESマッパーアタッチメントプラグインまたはApacheティカを使用しているかどうかについての質問についてサチン

答えて

1

。マッパープラグインを使用することをお勧めします。これはElasticsearchと統合されており、オーバーヘッドのインデックス作成やインデックス作成中のドキュメントにメタ情報を追加する手間が省けます。

私が知る限り、ES-Hadoopはストリーミング(リアルタイム)APIを公開しません。私はES-HadoopとApache Sparkで作業しており、Apache Kafkaを使用して自分自身でElasticsearchにストリーミングデータの種類を実装しなければなりませんでした。

希望に役立ちます。

+0

mapper attachmentsプラグインのソースとしてHDFSの場所(docファイルが格納されている場所)を使用できますか?私はファイルをESに保存したくない。ファイルはHDFSになければならず、ESに格納されるテキストコンテンツとメタデータだけでなければならない。 – Sachin

+0

このようなオプションはわかりません。マッパー添付ファイルDSLでは、ファイルを64-Baseでエンコードし、エンコードされたデータを値として添付ファイルのフィールドタイプに追加する必要があります。 DSLへの[link](https://github.com/elastic/elasticsearch-mapper-attachments)です。ドキュメントのメタデータを添付ファイルのプラグインに書き込んだり、後でそれらを照会することはできます。 –

関連する問題