テキスト検索エンジンを実装したい。特に索引付けする文書は、重みのある用語のリストです。
クエリは単純な用語リストです。
検索の出力は、関連性の一致(条件とその重みに対して)で並べ替えられたリストにする必要があります 私が保存する必要があるデータは大きいです!単一ノードには収まりません。したがって、最終的なストレージは、配布が容易でなければなりません。検索エンジンのデータストレージとしてのCouchbaseまたはRiak
どのデータベースストレージをお勧めしますか? 分析の後、私はCouchbaseとRiakのどちらかを選択したいと思います。
[編集] 単純なリレーショナルデータベースについてどう思いますか?彼らはすでに配布用の良い仕組みを持っています(例:Postgres 9にはビルドされています)
Riakはbuildin検索機能を持っていますが、私はそれを使いたくないと知っています。レスポンスを得るためにインデックスを持つ必要があります(クエリごとに計算するのではなく)。一方のCouchbaseの2オン
「はJSONドキュメントのセカンダリインデックスを追加します。インデックスは、その後、照会することができるビューを使用して作成されます。インデックスが均等に分配される。」
Couchbaseの
でなどのキューを使用して、独自の同期を行うことができます[スタックオーバーフローがリコメンデーション・エンジンではありません](のhttp://メタ。 stackexchange.com/a/128562/172496) –
私はcouchbaseやriakで熟練していない場合はどこでアドバイスを探す必要がありますか? –
テキスト検索では、Solr(成熟だが断片化しにくい)またはElastic Search(自動断片化に設計されている)を検討してください。 CouchDBやRiakなどのテキスト検索用のNoSQL DBにLucene(のような)統合があります。スペシャル:MySQLやその他のテキスト検索用のSphinxフルテキストストレージ-RDBMS統合。 – aitchnyu