jabong.comから男性用の靴をクロールしようとしています。Nutch 2.3.1でウェブサイトをクロールすると、製品リンクはスキップされますが、他のリンクはクロールされます
マイシードURLは次のとおりです。
http://www.jabong.com/men/shoes/
私はこれがregex-urlfilter.txt
で使用して?
と=
をスキップしないことを確認Nutchのを作っていないのです:これはNutchの-site.xml内の私protocol.includes
-[*[email protected]]
次のとおりです。
protocol-httpclient|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|scoring-opic|urlnormalizer-(pass|regex|basic)|indexer-solr
次のようなリンクをクロールします。次のようにして、私はそれらをsolrで検索することができます:
http://www.jabong.com/men/shoes/andrew-hill/
http://www.jabong.com/men/shoes/?sh_size=40
http://www.jabong.com/all-products/?promotion=app-10-promo&cmpgp=takeover5
実際にクロールしたい製品はありません。商品リンク:
http://www.jabong.com/Alberto-Torresi-Black-Sandals-2024892.html?pos=2
http://www.jabong.com/Clarks-Un-Walk-Brown-Formal-Shoes-874785.html?pos=11
これらのリンクはシードURLと同じページにありますが、クロールされていないため、これは奇妙です。私はページを得るためにwget
をして、リンクがそこにあるので、JavaScriptが関与していないのを見ました。
私は間違いがありますか?