2016-03-31 16 views
1

jabong.comから男性用の靴をクロールしようとしています。Nutch 2.3.1でウェブサイトをクロールすると、製品リンクはスキップされますが、他のリンクはクロールされます

マイシードURLは次のとおりです。

http://www.jabong.com/men/shoes/ 

私はこれがregex-urlfilter.txtで使用して?=をスキップしないことを確認Nutchのを作っていないのです:これはNutchの-site.xml内の私protocol.includes

-[*[email protected]] 

次のとおりです。

protocol-httpclient|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|scoring-opic|urlnormalizer-(pass|regex|basic)|indexer-solr 

次のようなリンクをクロールします。次のようにして、私はそれらをsolrで検索することができます:

http://www.jabong.com/men/shoes/andrew-hill/ 
http://www.jabong.com/men/shoes/?sh_size=40 
http://www.jabong.com/all-products/?promotion=app-10-promo&cmpgp=takeover5 

実際にクロールしたい製品はありません。商品リンク:

http://www.jabong.com/Alberto-Torresi-Black-Sandals-2024892.html?pos=2 
http://www.jabong.com/Clarks-Un-Walk-Brown-Formal-Shoes-874785.html?pos=11 

これらのリンクはシードURLと同じページにありますが、クロールされていないため、これは奇妙です。私はページを得るためにwgetをして、リンクがそこにあるので、JavaScriptが関与していないのを見ました。

私は間違いがありますか?

答えて

0

ページのナビゲーションがCookieに依存しないことを確認してください。 crawlDBとセグメントをダンプし、予想されるURLがナビゲートされているかどうかを確認してください。このURLからどのようなコンテンツが取得されたかをナビゲートした場合。

関連する問題