2017-02-02 2 views
0

私たちはsolrでいくつかのpocを実行しています。私たちが検討している経路の1つは、luceneで初めてデータセットのインデックスを作成することです。次に、solrでこのインデックスとそれ以降の小さなインデックスを読むようにします。 合理的なことは、WebサーバーがHTTP経由でこのデータセットを転送する必要があり、ボトルネックになる可能性があるということです。 データセットのサイズは約500GBです。これについてどうやって行くかというよりも、私たちがそれをやろうとするべきかどうかを知りたいと思っています。luceneライブラリを使用して初めてデータセットのインデックスを付ける必要がありますか?

お時間をいただきありがとうございます。

+0

1 Solrサーバーで500 GBのインデックスを作成しますか?また、なぜhttpの輸送がボトルネックになるのか不思議ですが、その場合はluceneはうまくいくでしょうか? – Mysterion

+0

なぜ、最初のインデックスステップのためにローカルのSolrインスタンスを実行しないのですか? luceneライブラリを使用して別のアプリケーションを作成してインデックスを作成し、それをsolrインスタンスに取得し、それがsolrスキーマと一貫していることを確認してください...これは、完了するための時間プロセス。 – femtoRgon

+0

@Mysterion私は1台のサーバーでパフォーマンスを見て、シャードに分割してさらにテストを行うつもりです。 solrのドキュメントでは、2Billionのドキュメントは1台のサーバー上で索引付けできると述べています。これを望むならば十分だろう。私はluceneがデータをディスク上にインデックスするライブラリだと理解しているので、httpでデータを転送することは扱っていません。この説明がうまくいくと思っています。 – Aj05

答えて

0

SolrでPOCを実行している場合は、Solrの詳細を調べるためにSolr自体を使用してインデックスを作成する必要があります。これにより、Javaコードを作成する必要があるインデックス作成作業が少なくなります。関連性を向上させたい場合は、luceneを使用してカスタムプラグインを実装し、それをSolrにデプロイすることができます。あなたはluceneのを使用してインデックスを行いたい場合

それは十分に高速であるが、大規模なデータセットで、高可用性、パフォーマンス、などのような様々なものが来るでしょう

あなたはSolrの中を使用してインデックスを行うので、私はお勧めしますスタンドアローンモードとソルクラウドモードを比較すると、どのアプローチを取るかを比較できます。

関連する問題