私のクロール中に404エラーにリダイレクトするページがありますが、 "readdb"コマンドを使用すると、404の代わりに302のステータスが表示されます。Nutchを有効にするにはhttpリダイレクトに従いますか?
次に、設定ファイルを検索してオプション "http.redirect.max"が見つかりました。
Response response = getResponse(u, datum, false);
:私は、ソースコードを読んだ後、私は、すでに3用「http.redirect.max」を設定していて、ページを再クロールが、それの状態はまだ302
である私のようなものを見つけました
HttpBase.javaのメソッド "getProtocolOutput"にあります。私は "false"を "true"に変更してnutchを再コンパイルした後、この関数が機能します。
これは、nutchがリダイレクトに従うようにする正しい方法ですか?この変更により、クロール中に他のエラーが発生しますか?