2012-03-26 11 views
1

私はウェブサイトをクロールするためにnutch 1.4を使用しています。デモの目的で、jabong.comでクロールを開始しましたが、Nutchがサイト内のすべてのリンクを取得できないことがわかりました。Nutchは特定のサイトをクロールできませんでした

訪問後http://www.jabong.com/women/clothing/womens-suits-sets/ イメージにマップされているこのサイトに存在するリンクを取得していません。

nutchを次のように設定しました。 - conf/nuth-default.xml --->エージェント名を追加しました。 conf/regex-urlfilter.txt ---> +の代わりに。 * jabong.com/ seed.txtには、http://www.jabong.com/が含まれています。

誰かが私に教えてくれることはありますか?リンク?

答えて

2

最後に、私の頭を長く壊してこの問題を解決することができました。だから、ここでそれを共有する:) お持ちのconfディレクトリにnutch-default.xmlで定義されたパラメータを調整する

だからmax.content.lengthを確認し、このために定義された値は約60Kになりますが、実際にページのコンテンツは、より多くのようにそれがすることができませんでしたあまりましたページ全体をクロールするため、リンクがクロールされたページに表示されませんでした。

だから、任意のサイトをクロールする前に、これらのパラメータをチェックします:) は:)

PSクロールお楽しみ:私はsome1私はここに質問を投稿して、ソリューションを投稿することを感じていると小文字申し訳ありませんが。質問を投稿する前に、私は実際にたくさん試しました..

関連する問題