2012-01-16 1 views
0

私はScrapyを使っていくつかのウェブサイトをクロールしていますが、には二重引用符ではなくhref=' 'href=" "というリンクが付いています。1クォート内のhrefを持つクロールリンク

すべてのリンクをallow()でクロールできるようにすると、結果には二重引用符で結ばれたリンクのみが含まれます。どうすればこの問題を解決できますか?

答えて

0

scrapy.contrib_exp.crawlspider.rules.RuleSgmlLinkExtractorをお使いですか?私は一重引用符や二重引用符は重要ではないと思います。あなたがしたい場合は、すべてのリンクを抽出し、その特定のルールに関連付けられる、=()が許す限り

Rule(SgmlLinkExtractor(allow=('.*',)), callback='parse_item') 

を使用する空のタプルを指し、したがって何のURLがマッチしません。

+0

はい、私はこれをしましたが、常に同じprobleme.theリンクです:Example。!!!!? – user1151311

+0

htmlスニペットをtxtファイルに挿入して、scrapyシェルを使用してテキストファイルを開き、SgmlLinkExtractor.extract_links(レスポンス)を実行してみてください。私は[]を持っているので、その問題は考えないでください – goh

+0

どうやってですか?私はそれを見ない? – user1151311

関連する問題