2017-06-28 10 views
0

Nutchの各クロール中に、Solrに送信されたインデックスに一貫性がないことに気付きました。ウェブページの最新の変更が表示されることもありましたが、古い変更が代わりに表示されることもありました。Nutch Crawl - 各クロールの意味でのセグメントの削除

原因はNutchのは、Solrのに古いセグメントからインデックスを与えていたことに気づきました。フェッチする前に、すべての古いセグメントを削除する現在のソリューション

とは、問題を解決するように見えました。

はこれに、このようなアプローチや私の理解のいずれかの意味合いがあるかどうか知りたい

質問が正しくありません。また、なぜNutchがクロール中に古いセグメントを自動的に削除しないのか知りたいですか?

ありがとうございました。

答えて

0

複数のセグメントにインデックスが付けられていて、複数のセグメントに同じセグメントが含まれている場合、最新バージョンのインデックスが作成されているとは限りません。これは既知の問題です(NUTCH-1416)。最も簡単な解決策は、最近取り出されたセグメントのみをインデクサーに送ることです。スクリプトbin/crawlを実行すると、このサイクルでフェッチされたセグメントの各サイクルの終わりにインデックスステップが実行されます。

関連する問題