の同じセットでそれは私のために働いて、私はあなたが非常に基本的なチュートリアルを開始することをお勧め:
import scrapy
class BlogSpider(scrapy.Spider):
name = 'blogspider'
start_urls = ['http://allegro.pl/sportowe-uzywane-251188?a_enum%5B127779%5D%5B15%5D=15&a_text_i%5B1%5D%5B0%5D=2004&a_text_i%5B1%5D%5B1%5D=2009&a_text_i%5B5%5D%5B0%5D=950&id=251188&offerTypeBuyNow=1&order=p&string=gsxr&bmatch=base-relevance-aut-1-1-0913']
def parse(self, response):
print "----------------------------------------------------------------"
print response.body
print "----------------------------------------------------------------"
私が見ることができますよページの本文view(response)
は間違っている、未定義の関数です。
はmyspider.py
としてこのコードを保存し、scrapy runspider myspider.py
で実行します。あなたはそれが-------------
sの体で、あなたの端子に大きな文字列の印刷が表示されます。 Scrapyシェルの場合
:シェルモードで
スタート:
scrapy shell
ちょうど実行します。
>>> fetch("http://allegro.pl/sportowe-uzywane-251188?a_enum%5B127779%5D%5B15%5D=15&a_text_i%5B1%5D%5B0%5D=2004&a_text_i%5B1%5D%5B1%5D=2009&a_text_i%5B5%5D%5B0%5D=950&id=251188&offerTypeBuyNow=1&order=p&string=gsxr&bmatch=base-relevance-aut-1-1-0913")
>>> view(response)
それがデフォルトのブラウザで掻き取っページを開きます。あなたはURLが私のために働いています。
そして、タイトルタグのためにそれを示しています
>>> response.css("title")
[<Selector xpath=u'descendant-or-self::title' data=u'<title>Gsxr w Sportowe U\u017cywane - Motocyk'>]
クロール/ウェブページが/tmp/tmpn8wziQ.html
:
輸入scrapy
クラスQuotesSpider(scrapy.Spider)。 – mertyildiran