ファイルの複数のフォーマットからテキストを抽出してElasticsearchに保存します

私は、pdf、worddoc、txt、msg、pptなどの形式のフォルダにすべてのファイルストアの内容を抽出する必要があります。アプリケーションはパイプラインアーキテクチャで構築する必要があります。私はApache TIKAを使用してコンテンツを抽出し、それを弾力的に保存する予定です。このソリューションを実装するためのより良いアプローチはありますか？ファイルの複数のフォーマットからテキストを抽出してElasticsearchに保存します

出典

2017-04-03 ProblemSolver

でより多くの使用情報を見つけることができます（https://blog.ambar.cloud/ingest-attachment-plugin-for- elasticsearch-should-you-use-it /） – SochiX

あなたは、単にそれをインストールApacheのティカをバンドルして、PDF、DOC、PPTからコンテンツを抽出すなわち、必要なものを正確に行いingest attachment pluginなど

を調査する必要があり

bin/elasticsearch-plugin install ingest-attachment

次にあなたが作成することができます新しいパイプライン

最後に、あなたがこのようなインデックスは、ドキュメントすることができます

PUT _ingest/pipeline/attachment 
{ 
    "description" : "Extract attachment information", 
    "processors" : [ 
    { 
     "attachment" : { 
     "field" : "data" 
     } 
    } 
    ] 
}

：

PUT my_index/my_type/my_id?pipeline=attachment 
{ 
    "data": "e1xydGYxXGFuc2kNCkxvcmVtIGlwc3VtIGRvbG9yIHNpdCBhbWV0DQpccGFyIH0=" 
}

あなたは[ElasticSearchのためのインジェストアタッチメントプラグイン：あなたはそれを使用する必要がありますか？]チェックhttps://www.elastic.co/guide/en/elasticsearch/plugins/5.3/using-ingest-attachment.html

出典

2017-04-04 04:07:50 Val

これで運がいい？ – Val

ファイルの複数のフォーマットからテキストを抽出してElasticsearchに保存します

答えて

関連する問題