2011-10-29 14 views
2

Nutchを使用して、URLにipodを持つすべてのhttp://www.amazon.com/ウェブページをクロールしたいと思います。例えばのためにnutch:キーワードで検索

彼らの検索ボックスにiPodのための私の検索ならば、私はこのウェブページには、iPod用のリンクの束を示し

http://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=ipod&x=0&y=0

を取得します。私はiPodに関連する各リンクをクロールして取得したいと思います。私は以下の使うべき

検索結果の下に示した最初のリンクは

http://www.amazon.com/Apple-iPod-touch-8GB-Generation/dp/B001FA1O0O/ref=sr_1_1?ie=UTF8&qid=1319863311&sr=8-

のですか?

+^http://([a-z0-9\-A-Z]*\.)*www.amazon.com/*ipod* 

答えて

0

あなたは、この特定のURLをクロールする場合 あなたは、このコマンドは、他のすべてのURLを除外します

-.* 

クロール-urlfilter.txtに次の行を含める必要があります!

+0

これについての詳細情報が記載されているリンクを追加してください。 – Narendra

関連する問題