2017-03-25 13 views
0

私はいくつかのデータを削り取ろうとしていますが、出力は奇妙です。私が取り組んでいる情報は、このページの国名と人口であるLINKです。しかし、出力は:Python Scrapyは間違った情報を取ります

['United States'] 328,131,075 

これはドイツの情報が含まれているページから抜け出しているので、私にとっては意味がありません。

これは私のコードです:

allowed_domains = ["geoba.se/country.php?cc=DE"] 
start_urls = ['http://geoba.se/country.php?cc=DE/'] 

def parse(self, response): 

    country = response.xpath('//*[@id="wrap"]/div[2]/div[2]/div[1]/div[1]/h2/b/text()').extract() 
    pop_total = response.xpath('//td/div/table/tr/td[2]/text()').extract_first() 

    print(country, pop_total) 

は、私はここで何をしないのですか?結果は次のようになります。

['Germany'] 80,594,017 

私はスクイリーシェルを使用すると正しい出力が得られます。

答えて

2

問題はあなたのstart_urlsにあります。それは "http://geoba.se/country.php?cc=DE"(最後のスラッシュバーなし)でなければなりません。さもなければ、サイトは常にあなたを米国のページに連れて行きます。

関連する問題