2013-02-12 10 views
8

Apache Nutch 2.1で少数のサイトをクロールします。Apache Nutch 2.1の異なるバッチid(null)

クロール中に、多くのページで次のメッセージが表示されます。
ex。スキップhttp://www.domainname.com/news/subcategory/111111/index.html;異なるバッチID(null)。

このエラーの原因を教えてください。
異なるバッチID(null)のページがデータベースに格納されないため、この問題を解決するにはどうすればよいですか。

私がクロールしたサイトはdrupalに基づいていますが、Drupal以外の多くのサイトで試しました。

+0

これを解決できましたか? – darksky

+0

いいえ、私は数週間は試みましたが、成功しませんでした。 その後、私はNutchの使用をやめました。 同様に、あなたはPHPクローラーを使用することができます: [link](http://www.sphider.eu/download.php) [link](http://www.sphider-plus.eu/) –

+0

見つかりました私のニーズに合った回避策。 Python scrapeyも素晴らしい:http://scrapy.org/ – darksky

答えて

1

と思いますが、メッセージには問題ありません。すべてのURLにbatch_idが割り当てられていません。したがって、batch_idがnullの場合は、URLをスキップします。 urlにbatch_idが設定されている場合、urlを生成します。

関連する問題