私は、ドキュメントを作成し、返されたテキストが保存され、検索可能であることを要求するプロジェクトに取り組んでいます。最大の障害は、スクラップしたテキストのフルテキスト検索のパフォーマンスです。全文検索のためのElastisearchとSQL Server?
私の考えは、データの永続化にはSQL Serverと、パフォーマンス検索にはElastisearchの組み合わせを使用することです。文書が掻き取られると、データベースに挿入され、それが成功した場合、Elastisearchによって索引付けされます。
誰もこの設定で警告を見ることはできますか、それとももっと良い方法があるかについての洞察はありますか?
あなたのアプローチは有効です。コードがOCRを通過したと判断したら、それをRDBMSに保存してからESインデックスを作成することができます。または、ESで直接索引付けすることもできます。 IMO私はRDBMSをスキップします。なぜなら、ESで検索するのではないからです。 –
また、異なるマッピング設定でesインデックスを簡単に再作成できるように、ドキュメントをrdbmsまたはその他の永続ストレージに保存する必要があります。 – broersa