XPATH（もう一度）オプションのタグ要素単一の文字列を抽出

-2

私はこれらのリストを持っており、リストの理解度を使ってすべてを一気に取得しています。どちらの場合でも、テキスト「v 11/4」を抽出する場合は、（この行の場合）に抽出する必要があります。XPATH（もう一度）オプションのタグ要素単一の文字列を抽出

EX 1

<td> 
<b class="black">2</b>/6 <a href="/some/link"onclick= 
"returnHtml.popup(this," title="whateveryoulike">(ABL TTTTTSSSSSS 
11)</a>v 11/4</td>

EX 2

<td> 
<b class="black">2</b>/6 <a href="/some/link"onclick= 
"returnHtml.popup(this," title="whateveryoulike">(ABL TTTTTSSSSSS 
11)</a>v<sup>1</sup> 11/4</td>

任意のアイデア？両方<td>例は「<a>後に配置（<td>の）すべての直接の子テキストノードの連結」であろうための一貫したテキスト「V 11/4」を識別するために

出典

2016-05-22 codervince

何は、XPath、他の 'lxml'、scrapy、セレン、何かを実行するために使用しますか？ – har07

治療 - 問題を解決しました – codervince

anonユーザーが簡単に投稿をマークすることができます。さあ、あなたの顔を見せてください。 – codervince

1つの可能な方法。以下の例の実装はlxml.htmlを使用している：

>>> from lxml import html 
>>> raw = '''<tr> 
... <td> 
... <b class="black">2</b>/6 <a href="/some/link" onclick= 
... "returnHtml.popup(this," title="whateveryoulike">(ABL TTTTTSSSSSS 
... 11)</a>v 11/4</td> 
... <td> 
... <b class="black">2</b>/6 <a href="/some/link" onclick= 
... "returnHtml.popup(this," title="whateveryoulike">(ABL TTTTTSSSSSS 
... 11)</a>v<sup>1</sup> 11/4</td> 
... </tr>''' 
... 
>>> root = html.fromstring(raw) 
>>> result = [''.join(txt for txt in td.xpath("a/following-sibling::text()")).strip() \ 
...    for td in root.xpath("//td")] 
... 
>>> result 
['v 11/4', 'v 11/4']

出典

2016-05-22 08:45:03 har07

ちょうど私が感謝のために探していたもの – codervince

XPATH（もう一度）オプションのタグ要素単一の文字列を抽出

答えて

関連する問題