2016-08-08 10 views
-1

部分的なhrefの代わりに完全なhref属性(https://studyacer.com/question/audit-and-assurance-services-444592)を得る方法はありますか? (https://studyacer.com/question/audit-and-)をこのマークアップから削除しますか?完全なhref属性を得るためにこのXPath式を解読する

<td class="word-break"> 
    <span class="label label-success">Due in 5 days</span> 
    <a href="https://studyacer.com/question/hey-greg-here-is-my-hrm522-discussion-444593"> 
     <strong>hey Greg here is my HRM522 discussion</strong></a> 
    <small>&quot;Auditing of Organizational Ethics and Compliance Programs&quot; Please respond to the following:... 
    </small> 
    <br /> 
    <strong>Business > Management</strong> 
</td> 

私が持っているXPath式には、この '// TD [クラス@ = "ワードブレイク"]//のhref @' であり、それはちょうど私に部分的なURLを与えています。 サイトでは絶対URLを使用しています(役立つ場合)。

編集:Scrapyを使用して基本的なクローラを実装しています。私が走るとき

response.xpath('//td[@class="word-break"]/a/@href') 

私は部分的なURLを取得します。

+0

ようこそSO :-)値は、使用するツールによって切り捨てられる必要があります。xpathには、主に切り捨てるものはありません。あなたは(「編集」をクリックすることによって)あなたのツールに関する情報を質問に追加し、切り捨てられた値がどの位置にあるかを... –

+0

@stefanHegny歓迎してくれてありがとう!私はScrapyを使って基本的なクローラを実装していました。そしてあなたはそれが完全な価値を切り捨てるScrapyツールだと納得しています。 –

答えて

0

同様の問題が発生した場合。それが消えた

response.xpath('xpath_expression') 

あなたはScrapyで部分的なURLを与えます。特にURLが長い場合は。 完全な値は、最後にextract()を使用してください。このように

response.xpath('xpath_expression').extract() 
関連する問題