はつまりコマンドウィンドウでタイトルを得ることはできません。どうすればそれを改訂するのか教えてください。ありがとうscrapyのLxmlLinkExtractor相対URLをクロールする
1
A
答えて
0
Spider
をサブクラス化していますが、start_urls
があるので、CrawlSpider
を使用すると思います。
rules = (
Rule(LxmlLinkExtractor(restrict_xpaths='//div[@class="Q- tpList"]/div/a/@href'), callback='parse_page'),
)
def parse_page(self, response):
...
あなたは、このクラス名を修正する必要があり、同様のスペースを削除します:
//div[@class="Q- tpList"]/div/a/@href
^^^
parse
が実際に新しいリンクを見つけるために
CrawlSpider
によって内部的に使用されているので、このケースでは、クロールするために、あなたの構造を修正する必要があります
最後に、あなたはScrapyの古いバージョンを使用していると思います。後で切り替えるのが難しくなるため、古いAPIを使用してコードを追加する前にアップグレードすることをおすすめします。今scrapyがリンク抽出の唯一の1種類があるので、あなたはどちらかに古いscrapyのバージョンを使用してか悪いの輸入をしている
0
まず最初は、 - (LxmlExtractor名前が変更されます)LinkExtractor
を私はこれをテストしてみた、それが完璧に動作します微細:XPathの@class
チェックイン
$ scrapy shell 'http://news.qq.com/'
from scrapy.linkextractors import LinkExtractor
LinkExtractor(restrict_xpaths=['//div[@class="Q-tpList"]/div/a']).extract_links(response)
# got 43 results
注スペースなし、それはa
ノードなくLinkExtractor抽出ノードため@href
属性ではないパラメータを指します。
関連する問題
- 1. ダイナミック開始URLのリストをscrapyでクロール
- 2. Scrapy条件クロール
- 3. Scrapyを使用してWebページのURLをクロールする
- 4. Scrapy Spider:n行目からURLのリストをクロールする
- 5. Scrapyがクロール時エキス
- 6. Scrapy - ウェブサイト全体をクロールする
- 7. "#"リンクをScrapyクロールから削除する
- 8. Python - Scrapy - URLのリストを取得してクロールするクローラを作成する
- 9. 固定URLの相対URL
- 10. 相対URL html
- 11. PhoneGap相対URL
- 12. Scrapy認証されたクロール
- 13. Xamppの相対URL
- 14. 相対URLのプロキシ
- 15. scrapy-redisは、既に1つのマシンがクロールしているURLを再クロールします。
- 16. 相対URLをCurlの後に絶対URLに変更する
- 17. Scrapyは1ページのみクロールします
- 18. NSURL URLWithString相対URL
- 19. ジャンゴ:相対URLに
- 20. マッチ相対URLは
- 21. iframeの相対URLを表示する
- 22. 広いクロール - 異なるxpaths - Scrapy
- 23. Python Scrapy:ローカルファイルからのクロール:Content-Type undefined
- 24. Webpackの相対CSS URL
- 25. サーバパスへの相対URL - Grails
- 26. サブディレクトリ内の相対URL
- 27. jQuery Mobile Betaの絶対/相対URLパス
- 28. 相対パスからの絶対URL
- 29. php:絶対URLのすべての相対URLを変換する
- 30. Scrapy - クロール中にディスクに書き込む
@Blender 'start_urls'は' CrawlSpider'を排他的ではありません。おそらく 'rules'を意味していますか?これはCrawlSpiderの排他的なパラメータです。 – Granitosaurus
@Blenderあなたが言ったように私のコードを改訂しましたが、まだ動作しません〜LxmlLinkExtractor restrict_xpathsエラーが発生する可能性はありますか? –