2016-09-27 5 views
0

を開いていません。私はクロールしようとしているURLは次のとおりです。http://allegro.pl/sportowe-uzywane-251188?a_enum[127779][15]=15&a_text_i[1][0]=2004&a_text_i[1][1]=2009&a_text_i[5][0]=950&id=251188&offerTypeBuyNow=1&order=p&string=gsxr&bmatch=base-relevance-aut-1-5-0913scrapyシェルは、私が scrapyシェルを扱っています長いリンク

しかし、私は、「ビュー(レスポンス)」私は、空白のページに ページを取得していないとき

>>> response.css("title") 
[] 

をロードされていないように見える今、楽しい部分は、それがロード時々あります適切コマンド

+0

輸入scrapy

クラスQuotesSpider(scrapy.Spider)。 – mertyildiran

答えて

0

の同じセットでそれは私のために働いて、私はあなたが非常に基本的なチュートリアルを開始することをお勧め:

import scrapy 

class BlogSpider(scrapy.Spider): 
    name = 'blogspider' 
    start_urls = ['http://allegro.pl/sportowe-uzywane-251188?a_enum%5B127779%5D%5B15%5D=15&a_text_i%5B1%5D%5B0%5D=2004&a_text_i%5B1%5D%5B1%5D=2009&a_text_i%5B5%5D%5B0%5D=950&id=251188&offerTypeBuyNow=1&order=p&string=gsxr&bmatch=base-relevance-aut-1-1-0913'] 

    def parse(self, response): 
     print "----------------------------------------------------------------" 
     print response.body 
     print "----------------------------------------------------------------" 

私が見ることができますよページの本文view(response)は間違っている、未定義の関数です。

myspider.pyとしてこのコードを保存し、scrapy runspider myspider.pyで実行します。あなたはそれが------------- sの体で、あなたの端子に大きな文字列の印刷が表示されます。 Scrapyシェルの場合

:シェルモードで

スタート:

scrapy shellちょうど実行します。

>>> fetch("http://allegro.pl/sportowe-uzywane-251188?a_enum%5B127779%5D%5B15%5D=15&a_text_i%5B1%5D%5B0%5D=2004&a_text_i%5B1%5D%5B1%5D=2009&a_text_i%5B5%5D%5B0%5D=950&id=251188&offerTypeBuyNow=1&order=p&string=gsxr&bmatch=base-relevance-aut-1-1-0913") 
>>> view(response) 

それがデフォルトのブラウザで掻き取っページを開きます。あなたはURLが私のために働いています。

そして、タイトルタグのためにそれを示しています

>>> response.css("title") 
[<Selector xpath=u'descendant-or-self::title' data=u'<title>Gsxr w Sportowe U\u017cywane - Motocyk'>] 

クロール/ウェブページが/tmp/tmpn8wziQ.html

0

よう/tmpディレクトリに保存されます掻き取りは、あなたの助けのために非常に多くのmertyildiranありがとうございます。

scrapyシェルは私のために働いていません。何度か、ウェブを取得しますが、ほとんどの場合はそうではありません。理由はわかりません。

とにかく私は偉大な一つ一つの時間を動作するコードで終わります。私は私の答えを更新した 名= "アレグロ" start_urls = [ 'http://allegro.pl/sportowe-uzywane-251188?a_enum%5B127779%5D%5B15%5D=15&a_text_i%5B1%5D%5B0%5D=2004&a_text_i%5B1%5D%5B1%5D=2009&a_text_i%5B5%5D%5B0%5D=950&id=251188&offerTypeBuyNow=1&order=p&string=gsxr&bmatch=base-relevance-aut-1-1-0913']

def parse(self, response): 
    for lista in response.css("article.offer"): 
     yield { 
     'link': lista.css('a.offer-title::attr(href)').extract(),    
     } 
関連する問題