Nutchの各クロール中に、Solrに送信されたインデックスに一貫性がないことに気付きました。ウェブページの最新の変更が表示されることもありましたが、古い変更が代わりに表示されることもありました。Nutch Crawl - 各クロールの意味でのセグメントの削除
原因はNutchのは、Solrのに古いセグメントからインデックスを与えていたことに気づきました。フェッチする前に、すべての古いセグメントを削除する現在のソリューション
とは、問題を解決するように見えました。
はこれに、このようなアプローチや私の理解のいずれかの意味合いがあるかどうか知りたい
質問が正しくありません。また、なぜNutchがクロール中に古いセグメントを自動的に削除しないのか知りたいですか?
ありがとうございました。