私たちは1億4300万行(docs)のデータをsolrに索引付けしました。索引付けには約3時間かかります。私はcsvUpdateHandlerを使用して、リモートストリーミングでcsvファイルを索引付けします。 今、同じCSVデータのインデックスを再作成していますが、まだ3時間以上かかることがあります。Solr時間の再インデックス
理想的には、_id値に変更がないため、すぐに終了するはずです再インデックスを高速化する方法はありますか?
助けてください。
私たちは1億4300万行(docs)のデータをsolrに索引付けしました。索引付けには約3時間かかります。私はcsvUpdateHandlerを使用して、リモートストリーミングでcsvファイルを索引付けします。 今、同じCSVデータのインデックスを再作成していますが、まだ3時間以上かかることがあります。Solr時間の再インデックス
理想的には、_id値に変更がないため、すぐに終了するはずです再インデックスを高速化する方法はありますか?
助けてください。
データの実際の提出に関しては、ほぼ可能な限り効率的です。外部要因によって変更されたことがわかっているデータのみを送信することが考えられます。
Solrはいずれにしても各値のインデックスを照会し、再インデックスする前にどのフィールドが変更されているかを判断する必要があります。
この数のドキュメントの場合、3時間はかなり良いです。その代わりに、実行された行の数を減らすように作業する必要があります。その結果、総作業量は従来のものより少なくなります。 CSVがソートされ、行のみが追加された場合は、最後の_idを使用可能にして、idの後にあるCSV行を送信してから、CSVをSolrに送信してください。
情報ありがとう:-) –
私たちは本当に143文書について話していますか?たった143? – MatsLindh
ああ、それはタイプミスだった、それは1億4300万行だった.. –