私はウェブサイトをクロールするためにnutch 1.4を使用しています。デモの目的で、jabong.comでクロールを開始しましたが、Nutchがサイト内のすべてのリンクを取得できないことがわかりました。Nutchは特定のサイトをクロールできませんでした
訪問後http://www.jabong.com/women/clothing/womens-suits-sets/ イメージにマップされているこのサイトに存在するリンクを取得していません。
nutchを次のように設定しました。 - conf/nuth-default.xml --->エージェント名を追加しました。 conf/regex-urlfilter.txt ---> +の代わりに。 * jabong.com/ seed.txtには、http://www.jabong.com/が含まれています。
誰かが私に教えてくれることはありますか?リンク?