ScrapyとXpathを使用したデータの掻き取り

Scrapyとxpathを使用してサイトからデータをスクラップしようとしていますが、いくつか問題があります。ここに私のコードは次のとおりです。ScrapyとXpathを使用したデータの掻き取り

class MaijiaSpider(scrapy.Spider): 
    name = 'maijiaSpider' 
    start_urls =["http://www.maijia.com/index.html#/item/list/?keyword=recaro"] 

    def parse(self, response): 
     articles = response.xpath("//table[@class='ui-table ui-table-striped ui-table-inbox tablefixed']//tr[1]/td[2]/div/div[1]/a/@href") 
     for article in articles: 
      yield{ 
       'link': article.xpath('.//td[2]//a/@href').extract_first() 
      }

問題は、記事は、したがって、それはのためのサイクルに入ることはありません、常に空であることです。私は間違って何をしていますか？私は別のxpath文字列で試しましたが、何も動作していないようです。

出典

2017-03-22 Giada Confortola

でこのURLを見つけることができます。どのように '// div [@ class = "cell-box"]/a'？エラーの可能性が低い方法。 – leovp

'start-urls'の' URL'からページソースを取得する方法は？ – Andersson

@leovp私もそれを試みたが、まだ動作していない –

データをフェッチするために、このページにJavaScriptを使用、データのURLは次のとおりです。

http://www.maijia.com/data/item/list?api_name=item_get_list&type=ALL&pageNo=1&pageSize=10&keyword=recaro&sortField=amount30&sortType=desc

あなたはかなり長いXPath式のChromeのDevツール

出典

2017-03-22 09:33:38

申し訳ありませんが、私はちょうど治療を使用し始めました、それは正確に何を意味しますか？コードで何を変更すればよいですか？ –

@Giada ConfortolaはリクエストURLをこのhttp://www.maijia.com/data/item/list?api_name=item_get_list&type=ALL&pageNo=1&pageSize=10&keyword=recaro&sortField=amount30&sortType=descに変更します –

ScrapyとXpathを使用したデータの掻き取り

答えて

関連する問題