2016-11-09 11 views
0

私は、特定のウェブサイトのすべての内部リンクをクロールする治療プロジェクトを持っています。これはうまくいきましたが、クロールをウェブサイトの特定のセクションに限定したい場合がいくつかあります。ウェブサイトの特定のセクション(例: http://www.domain.com/section/

たとえば、銀行が投資家情報のための特別なセクションを持っていると考えることができます。 http://www.bank.com/investors/

上記の例では、http://www.bank.com/investors/のすべてがクロールされます。例えば、http://www.bank.com/investors/something/http://www.bank.com/investors/hello.htmlhttp://www.bank.com/investors/something/something/index.php

は、私はURLをスキャンし、それが(すなわち、それはありません/投資家/)私の要件を満たしていない場合は、パスをしてでもparse_url上のいくつかのハックのコードを書くことができる知っているが、それはそうです恐ろしい。

これを行うには良い方法がありますか?

ありがとうございます。

答えて

0

私はこれを理解しました。

許可したいパターンにallow()を追加する必要があります。例えば

Rule(LinkExtractor(allow=(self.this_folder_only)), callback="parse_url", follow=True) 

は、他のすべてが拒否されます。

関連する問題