2017-06-01 7 views
1

私は、ドキュメントを作成し、返されたテキストが保存され、検索可能であることを要求するプロジェクトに取り組んでいます。最大の障害は、スクラップしたテキストのフルテキスト検索のパフォーマンスです。全文検索のためのElastisearchとSQL Server?

私の考えは、データの永続化にはSQL Serverと、パフォーマンス検索にはElastisearchの組み合わせを使用することです。文書が掻き取られると、データベースに挿入され、それが成功した場合、Elastisearchによって索引付けされます。

誰もこの設定で警告を見ることはできますか、それとももっと良い方法があるかについての洞察はありますか?

+1

あなたのアプローチは有効です。コードがOCRを通過したと判断したら、それをRDBMSに保存してからESインデックスを作成することができます。または、ESで直接索引付けすることもできます。 IMO私はRDBMSをスキップします。なぜなら、ESで検索するのではないからです。 –

+0

また、異なるマッピング設定でesインデックスを簡単に再作成できるように、ドキュメントをrdbmsまたはその他の永続ストレージに保存する必要があります。 – broersa

答えて

1

私は完全なERPストレージのためにSQL Serverを使用してかなり同じプロジェクトを開発しました。検索したいデータをelasticsearchクラスタに永久に同期するWindowsサービスを作成しました。それは完璧に実行され、一方の側ではすべてのデータを持つデータベースがあり、他方の側では高速検索のためのクラスタです。

+0

非常によく似たサウンドです! rdbsとesの間の「永続的な同期」はどのように達成しましたか? –

+0

NEST APIを使用してWindowsサービスを作成して、データを同期させました。このサービスは定義されたサイクルで実行され、LINQを使用して変更をデータベースに照会します。次に、esクラスタ内のデータを索引付けします。 – Ohlsen1980

関連する問題