2017-08-29 17 views
0

私はここにHTMLコードを配置することだ:マッシモEraldoアバーテを抽出する方法のコード以上のことからscrapyを使ってPythonでスパンからテキストを取得するには?

<div class="rendering rendering_person rendering_short rendering_person_short"> 
    <h3 class="title"> 
    <a rel="Person" href="https://moh-it.pure.elsevier.com/en/persons/massimo-eraldo-abate" class="link person"><span>Massimo Eraldo Abate</span></a> 
    </h3> 
    <ul class="relations email"> 
    <li class="email"><a href="[email protected]" class="link"><span>[email protected]</span></a></li> 
    </ul> 
    <p class="type"><span class="family">Person: </span>Academic</p> 
</div> 

を?

私を助けてください。

答えて

1

あなたはこのScrapinghubのblogpostのXPathへの導入のためのを見て、また

response.xpath('//h3[@class="title"]/a/span/text()').extract_first() 

を使用して名前を抽出することができます。

+0

を抽出する方法はたくさんあります...前述のようにXPath構文を調べます - 兄弟とフォローしている - 兄弟...祖先の子供のうなずいなどなど...ページネーションで特に役立ちます – scriptso

0

このページをご覧ください。 XPathと正規表現ファルカンはWATCHAをしたい取得するための必須です...のxpathの深い知識はそんなにhastleが保存されますテキスト scrapy docs

>>> body = '<html><body><span>good</span></body></html>' 
>>> Selector(text=body).xpath('//span/text()').extract() 

>>> response = HtmlResponse(url='http://example.com', body=body) 
>>> Selector(response=response).xpath('//span/text()').extract() 
関連する問題