私たちはsolrでいくつかのpocを実行しています。私たちが検討している経路の1つは、luceneで初めてデータセットのインデックスを作成することです。次に、solrでこのインデックスとそれ以降の小さなインデックスを読むようにします。 合理的なことは、WebサーバーがHTTP経由でこのデータセットを転送する必要があり、ボトルネックになる可能性があるということです。 データセットのサイズは約500GBです。これについてどうやって行くかというよりも、私たちがそれをやろうとするべきかどうかを知りたいと思っています。luceneライブラリを使用して初めてデータセットのインデックスを付ける必要がありますか?
お時間をいただきありがとうございます。
1 Solrサーバーで500 GBのインデックスを作成しますか?また、なぜhttpの輸送がボトルネックになるのか不思議ですが、その場合はluceneはうまくいくでしょうか? – Mysterion
なぜ、最初のインデックスステップのためにローカルのSolrインスタンスを実行しないのですか? luceneライブラリを使用して別のアプリケーションを作成してインデックスを作成し、それをsolrインスタンスに取得し、それがsolrスキーマと一貫していることを確認してください...これは、完了するための時間プロセス。 – femtoRgon
@Mysterion私は1台のサーバーでパフォーマンスを見て、シャードに分割してさらにテストを行うつもりです。 solrのドキュメントでは、2Billionのドキュメントは1台のサーバー上で索引付けできると述べています。これを望むならば十分だろう。私はluceneがデータをディスク上にインデックスするライブラリだと理解しているので、httpでデータを転送することは扱っていません。この説明がうまくいくと思っています。 – Aj05