2017-03-22 23 views
0

Scrapyとxpathを使用してサイトからデータをスクラップしようとしていますが、いくつか問題があります。ここに私のコードは次のとおりです。ScrapyとXpathを使用したデータの掻き取り

class MaijiaSpider(scrapy.Spider): 
    name = 'maijiaSpider' 
    start_urls =["http://www.maijia.com/index.html#/item/list/?keyword=recaro"] 

    def parse(self, response): 
     articles = response.xpath("//table[@class='ui-table ui-table-striped ui-table-inbox tablefixed']//tr[1]/td[2]/div/div[1]/a/@href") 
     for article in articles: 
      yield{ 
       'link': article.xpath('.//td[2]//a/@href').extract_first() 
      } 

問題は、記事は、したがって、それはのためのサイクルに入ることはありません、常に空であることです。私は間違って何をしていますか?私は別のxpath文字列で試しましたが、何も動作していないようです。

+0

でこのURLを見つけることができます。どのように '// div [@ class = "cell-box"]/a'?エラーの可能性が低い方法。 – leovp

+0

'start-urls'の' URL'からページソースを取得する方法は? – Andersson

+0

@leovp私もそれを試みたが、まだ動作していない –

答えて

2

データをフェッチするために、このページにJavaScriptを使用、データのURLは次のとおりです。

http://www.maijia.com/data/item/list?api_name=item_get_list&type=ALL&pageNo=1&pageSize=10&keyword=recaro&sortField=amount30&sortType=desc 

あなたはかなり長いXPath式のChromeのDevツール

enter image description here

+0

申し訳ありませんが、私はちょうど治療を使用し始めました、それは正確に何を意味しますか?コードで何を変更すればよいですか? –

+0

@Giada ConfortolaはリクエストURLをこのhttp://www.maijia.com/data/item/list?api_name=item_get_list&type=ALL&pageNo=1&pageSize=10&keyword=recaro&sortField=amount30&sortType=descに変更します –

関連する問題