私は、pdf、worddoc、txt、msg、pptなどの形式のフォルダにすべてのファイルストアの内容を抽出する必要があります。アプリケーションはパイプラインアーキテクチャで構築する必要があります。私はApache TIKAを使用してコンテンツを抽出し、それを弾力的に保存する予定です。このソリューションを実装するためのより良いアプローチはありますか?ファイルの複数のフォーマットからテキストを抽出してElasticsearchに保存します
0
A
答えて
1
あなたは、単にそれをインストールApacheのティカをバンドルして、PDF、DOC、PPTからコンテンツを抽出すなわち、必要なものを正確に行いingest attachment pluginなど
を調査する必要があり
bin/elasticsearch-plugin install ingest-attachment
次にあなたが作成することができます新しいパイプライン
最後に、あなたがこのようなインデックスは、ドキュメントすることができますPUT _ingest/pipeline/attachment
{
"description" : "Extract attachment information",
"processors" : [
{
"attachment" : {
"field" : "data"
}
}
]
}
:
PUT my_index/my_type/my_id?pipeline=attachment
{
"data": "e1xydGYxXGFuc2kNCkxvcmVtIGlwc3VtIGRvbG9yIHNpdCBhbWV0DQpccGFyIH0="
}
あなたは[ElasticSearchのためのインジェストアタッチメントプラグイン:あなたはそれを使用する必要がありますか?]チェックhttps://www.elastic.co/guide/en/elasticsearch/plugins/5.3/using-ingest-attachment.html
+0
これで運がいい? – Val
関連する問題
- 1. 信号からフィーチャを抽出してファイルに保存する
- 2. は、テキストファイルから複数のパターンを抽出し、パンダのデータフレームに保存し、[パイソン]
- 3. セレニウム..データを抽出してtxtファイルに保存します
- 4. Python - 複数のファイルから複数の文字列のテキストを抽出する
- 5. jmeter:ヘッダーから情報を抽出して変数に保存します。
- 6. リソース内のファイルを抽出してC++のファイルに保存します
- 7. Python 3.x:FLACファイルからフロントカバーを抽出して保存します。
- 8. バッチファイル:.txtファイルから行を抽出してフォーマットする
- 9. 複数のファイルからパターンの抽出
- 10. DBからのランダム抽出のデータを保存します
- 11. 別のモデルからデータを抽出して保存する
- 12. 複数のテキストファイルからテキストを抽出するためにsed
- 13. ウェブサイト上の複数のページにあるDIVからテキストを抽出し、.txtに出力しますか?
- 14. MATLAB:英数字テーブルから数値データを抽出して二重に保存
- 15. 複数のLogstash設定ファイルを保存していますか?
- 16. Xpathは複数のノード間のすべてのテキストを抽出しますか?
- 17. XMLデータを抽出してXMLファイルとして保存
- 18. mhtからテキストを抽出します
- 19. テキストからJSONを抽出します。
- 20. 最新の日付に基づいてファイルからレコードを抽出し、新しいファイルに保存する
- 21. Excel-VBAマクロ。テキストを含む複数の.csvファイルを列に変換してファイルをxlsxに保存します
- 22. raster.listから縦方向のピクセル値を抽出し、データフレームに保存します。
- 23. Python Reモジュールを使用して複数行からテキストを抽出する
- 24. Excel - 複数の列からテキストを抽出する
- 25. リンクを抽出して添付ファイルを保存する - PowerShell
- 26. 複数のファイルをループして特定の列を抽出し、別々のファイルとして保存するにはどうすればよいですか?
- 27. CSVファイルからテキストを抽出します
- 28. JSONファイルからテキストを抽出します。
- 29. 未読メールを(テキスト形式で)抽出し、Googleドキュメントに保存します。
- 30. XMLファイルからテキストを抽出する
でより多くの使用情報を見つけることができます(https://blog.ambar.cloud/ingest-attachment-plugin-for- elasticsearch-should-you-use-it /) – SochiX