scrapyシェルは、私が scrapyシェルを扱っています長いリンク

を開いていません。私はクロールしようとしているURLは次のとおりです。http://allegro.pl/sportowe-uzywane-251188?a_enum[127779][15]=15&a_text_i[1][0]=2004&a_text_i[1][1]=2009&a_text_i[5][0]=950&id=251188&offerTypeBuyNow=1&order=p&string=gsxr&bmatch=base-relevance-aut-1-5-0913 scrapyシェルは、私が scrapyシェルを扱っています長いリンク

しかし、私は、「ビュー（レスポンス）」私は、空白のページにページを取得していないとき

>>> response.css("title") 
[]

をロードされていないように見える今、楽しい部分は、それがロード時々あります適切コマンド

出典

2016-09-27 Szymon K

：

輸入scrapy

クラスQuotesSpider（scrapy.Spider）。 – mertyildiran

の同じセットでそれは私のために働いて、私はあなたが非常に基本的なチュートリアルを開始することをお勧め：

import scrapy 

class BlogSpider(scrapy.Spider): 
    name = 'blogspider' 
    start_urls = ['http://allegro.pl/sportowe-uzywane-251188?a_enum%5B127779%5D%5B15%5D=15&a_text_i%5B1%5D%5B0%5D=2004&a_text_i%5B1%5D%5B1%5D=2009&a_text_i%5B5%5D%5B0%5D=950&id=251188&offerTypeBuyNow=1&order=p&string=gsxr&bmatch=base-relevance-aut-1-1-0913'] 

    def parse(self, response): 
     print "----------------------------------------------------------------" 
     print response.body 
     print "----------------------------------------------------------------"

私が見ることができますよページの本文view(response)は間違っている、未定義の関数です。

はmyspider.pyとしてこのコードを保存し、scrapy runspider myspider.pyで実行します。あなたはそれが------------- sの体で、あなたの端子に大きな文字列の印刷が表示されます。 Scrapyシェルの場合

：シェルモードで

スタート：

scrapy shellちょうど実行します。

>>> fetch("http://allegro.pl/sportowe-uzywane-251188?a_enum%5B127779%5D%5B15%5D=15&a_text_i%5B1%5D%5B0%5D=2004&a_text_i%5B1%5D%5B1%5D=2009&a_text_i%5B5%5D%5B0%5D=950&id=251188&offerTypeBuyNow=1&order=p&string=gsxr&bmatch=base-relevance-aut-1-1-0913") 
>>> view(response)

それがデフォルトのブラウザで掻き取っページを開きます。あなたはURLが私のために働いています。

そして、タイトルタグのためにそれを示しています

>>> response.css("title") 
[<Selector xpath=u'descendant-or-self::title' data=u'<title>Gsxr w Sportowe U\u017cywane - Motocyk'>]

クロール/ウェブページが/tmp/tmpn8wziQ.html

出典

2016-09-27 00:22:10 mertyildiran

よう/tmpディレクトリに保存されます掻き取りは、あなたの助けのために非常に多くのmertyildiranありがとうございます。

scrapyシェルは私のために働いていません。何度か、ウェブを取得しますが、ほとんどの場合はそうではありません。理由はわかりません。

とにかく私は偉大な一つ一つの時間を動作するコードで終わります。私は私の答えを更新した名= "アレグロ" start_urls = [ 'http://allegro.pl/sportowe-uzywane-251188?a_enum%5B127779%5D%5B15%5D=15&a_text_i%5B1%5D%5B0%5D=2004&a_text_i%5B1%5D%5B1%5D=2009&a_text_i%5B5%5D%5B0%5D=950&id=251188&offerTypeBuyNow=1&order=p&string=gsxr&bmatch=base-relevance-aut-1-1-0913']

def parse(self, response): 
    for lista in response.css("article.offer"): 
     yield { 
     'link': lista.css('a.offer-title::attr(href)').extract(),    
     }

出典

2016-09-28 01:00:07

scrapyシェルは、私が scrapyシェルを扱っています長いリンク

答えて

関連する問題