2017-04-03 8 views
0

私は、pdf、worddoc、txt、msg、pptなどの形式のフォルダにすべてのファイルストアの内容を抽出する必要があります。アプリケーションはパイプラインアーキテクチャで構築する必要があります。私はApache TIKAを使用してコンテンツを抽出し、それを弾力的に保存する予定です。このソリューションを実装するためのより良いアプローチはありますか?ファイルの複数のフォーマットからテキストを抽出してElasticsearchに保存します

+0

でより多くの使用情報を見つけることができます(https://blog.ambar.cloud/ingest-attachment-plugin-for- elasticsearch-should-you-use-it /) – SochiX

答えて

1

あなたは、単にそれをインストールApacheのティカをバンドルして、PDF、DOC、PPTからコンテンツを抽出すなわち、必要なものを正確に行いingest attachment pluginなど

を調査する必要があり

bin/elasticsearch-plugin install ingest-attachment 

次にあなたが作成することができます新しいパイプライン

最後に、あなたがこのようなインデックスは、ドキュメントすることができます
PUT _ingest/pipeline/attachment 
{ 
    "description" : "Extract attachment information", 
    "processors" : [ 
    { 
     "attachment" : { 
     "field" : "data" 
     } 
    } 
    ] 
} 

PUT my_index/my_type/my_id?pipeline=attachment 
{ 
    "data": "e1xydGYxXGFuc2kNCkxvcmVtIGlwc3VtIGRvbG9yIHNpdCBhbWV0DQpccGFyIH0=" 
} 

あなたは[ElasticSearchのためのインジェストアタッチメントプラグイン:あなたはそれを使用する必要がありますか?]チェックhttps://www.elastic.co/guide/en/elasticsearch/plugins/5.3/using-ingest-attachment.html

+0

これで運がいい? – Val

関連する問題