私はスタートページからすべてのhrefを見つけるscrapyを行うと、印刷しようとしているが、HREF参照を検索、最初のものだけ。scrapyパイソン再帰的
0
A
答えて
-2
あなたは以下/ hrefの
0
@コードは、ページ上のすべてのhrefを出力します//ためにあなたのxpathを変更してみてください:
import scrapy
class stackoverflow20170129Spider(scrapy.Spider):
name = "stackoverflow20170129"
allowed_domains = ["masterdatascience.es"]
start_urls = ["http://www.masterdatascience.es/",]
def parse(self, response):
for href in response.xpath('//a/@href'):
url = response.urljoin(href.extract())
print url
# yield scrapy.Request(url, callback=self.parse_dir_contents)
も一つのこと:WWWをドロップする価値があります。 "allowed_domains"から - あなたがウェブサイトに深く入り、anewpage.masterdatascience.esなどのページにアクセスし始めたら、wwwを含む。そのページをブロックします
関連する問題
- 1. パイソン - 再帰
- 2. ページネーションのLEVEL2 - scrapyパイソン
- 3. Scrapyクローラは、再帰的に</p> <p>、次のページ
- 4. Scrapy Spiderで動作しない再帰的なクロール
- 5. scrapy、URLのリスト、パイソン、パンダ
- 6. 再帰的ループ
- 7. は再帰的
- 8. 再帰的
- 9. 再帰的
- 10. 再帰的メイズソルバメソッド
- 11. 再帰的エラーハンドラ
- 12. 再帰的レンダリングコンポーネント
- 13. 再帰的メニューシステム
- 14. 再帰的サイクル
- 15. 再帰的
- 16. 再帰的シーケンスジェネレータ
- 17. 回帰的再帰的メソッドのコールバック?
- 18. 再帰的にバブルソート
- 19. 再帰的なラムダ
- 20. CTE再帰的クエリループ
- 21. 再帰的UITableViewCellボタンアクション
- 22. 再帰的にChmod/
- 23. 非再帰的マルチレベルメークファイル
- 24. 再帰的通知
- 25. 再帰的nmakeターゲット
- 26. jsRender再帰的テンプレート
- 27. 再帰的なdissocPath
- 28. 再帰的マージソートC++
- 29. は、再帰的に
- 30. 再帰的使用
'allowed_domains'の末尾にある'/'を削除できますか? ( 'self.allowed_domains = ['www.masterdatascience.es']') –