1クォート内のhrefを持つクロールリンク

私はScrapyを使っていくつかのウェブサイトをクロールしていますが、には二重引用符ではなくhref=' 'のhref=" "というリンクが付いています。1クォート内のhrefを持つクロールリンク

すべてのリンクをallow()でクロールできるようにすると、結果には二重引用符で結ばれたリンクのみが含まれます。どうすればこの問題を解決できますか？

scrapy.contrib_exp.crawlspider.rules.RuleとSgmlLinkExtractorをお使いですか？私は一重引用符や二重引用符は重要ではないと思います。あなたがしたい場合は、すべてのリンクを抽出し、その特定のルールに関連付けられる、=（）が許す限り

Rule(SgmlLinkExtractor(allow=('.*',)), callback='parse_item')

を使用する空のタプルを指し、したがって何のURLがマッチしません。

2012-01-16 07:03:06 goh

はい、私はこれをしましたが、常に同じprobleme.theリンクです：Example。!!!!？ – user1151311

htmlスニペットをtxtファイルに挿入して、scrapyシェルを使用してテキストファイルを開き、SgmlLinkExtractor.extract_links（レスポンス）を実行してみてください。私は[]を持っているので、その問題は考えないでください – goh

どうやってですか？私はそれを見ない？ – user1151311

答えて