2017-12-17 53 views
0

私は初心者ですが、勉強をしていますが、学習しています。私はthis pageを解析しています。 ページのアドレスを掻き取ろうとしています。なぜ治療用印刷が t n nどこにテキストがあると思われますか?

私はscrapyシェルでこれを行っているので、私はして開始:正常に動作します

scrapy shell https://www.marksandspencer.com/MSStoreDetailsView?storeId=10151&langId=-24&SAPStoreId=6952 

。 \ nは\ T \ T \ N \ t 'の\ nは\ T \ T'、」[

:その後、私はアドレスを解析しようとすると:

response.xpath('//li[@class="address"]/text()').extract() 

しかし、私の出力は以下の通りです\ T ']

なぜ私はそれがページに表示されるアドレスを見ることができないです:

ベルファストABBEY CENTER、1旧Glenmount道路Newtonabbey、ニュートンアビー、BT36 7DN

このアドレスを取得するにはどうしたらよいですか? 返信に時間がかかる人は感謝します。

答えて

1

あなたがこの問題に近づいているかのエラーのカップルがあります:

  1. scrapy shellを使用する場合は、端末が原因のいくつかのプロセスとしてそれを解釈する可能性があるため、あなたは、""でURLを囲むように持っていますURL内の文字&

    scrapy shell "https://www.marksandspencer.com/MSStoreDetailsView?storeId=10151&langId=-24&SAPStoreId=6952" 
    
  2. /text()であなたがその特定のタグのテキストを取得し、目されているので、あなたのxpathが正しくない
  3. liに実際に必要な情報が含まれていません。テキストはあなたが使用できることliの子どもたちにあることを含んでいるタグ:

    response.xpath('//li[@class="address"]//text()').extract() 
    

    または

    response.xpath('//li[@class="address"]/p/text()').extract() 
    
関連する問題