8
Apache Nutch 2.1で少数のサイトをクロールします。Apache Nutch 2.1の異なるバッチid(null)
クロール中に、多くのページで次のメッセージが表示されます。
ex。スキップhttp://www.domainname.com/news/subcategory/111111/index.html;異なるバッチID(null)。
このエラーの原因を教えてください。
異なるバッチID(null)のページがデータベースに格納されないため、この問題を解決するにはどうすればよいですか。
私がクロールしたサイトはdrupalに基づいていますが、Drupal以外の多くのサイトで試しました。
これを解決できましたか? – darksky
いいえ、私は数週間は試みましたが、成功しませんでした。 その後、私はNutchの使用をやめました。 同様に、あなたはPHPクローラーを使用することができます: [link](http://www.sphider.eu/download.php) [link](http://www.sphider-plus.eu/) –
見つかりました私のニーズに合った回避策。 Python scrapeyも素晴らしい:http://scrapy.org/ – darksky