0
私はScrapyを使っていくつかのウェブサイトをクロールしていますが、には二重引用符ではなくhref=' '
のhref=" "
というリンクが付いています。1クォート内のhrefを持つクロールリンク
すべてのリンクをallow()
でクロールできるようにすると、結果には二重引用符で結ばれたリンクのみが含まれます。どうすればこの問題を解決できますか?
私はScrapyを使っていくつかのウェブサイトをクロールしていますが、には二重引用符ではなくhref=' '
のhref=" "
というリンクが付いています。1クォート内のhrefを持つクロールリンク
すべてのリンクをallow()
でクロールできるようにすると、結果には二重引用符で結ばれたリンクのみが含まれます。どうすればこの問題を解決できますか?
scrapy.contrib_exp.crawlspider.rules.Rule
とSgmlLinkExtractor
をお使いですか?私は一重引用符や二重引用符は重要ではないと思います。あなたがしたい場合は、すべてのリンクを抽出し、その特定のルールに関連付けられる、=()が許す限り
Rule(SgmlLinkExtractor(allow=('.*',)), callback='parse_item')
を使用する空のタプルを指し、したがって何のURLがマッチしません。
はい、私はこれをしましたが、常に同じprobleme.theリンクです:Example。!!!!? – user1151311
htmlスニペットをtxtファイルに挿入して、scrapyシェルを使用してテキストファイルを開き、SgmlLinkExtractor.extract_links(レスポンス)を実行してみてください。私は[]を持っているので、その問題は考えないでください –
goh
どうやってですか?私はそれを見ない? – user1151311