私のHTML行のタイトルの抽出

-3

html行のタイトルを抽出する質問があります。私のHTML行のタイトルの抽出

はどうすれば自動的に抽出しようとして行くだろう..私は、ハイパーリンクとして表示されないためにラインのためにいくつかの余分なスペースを追加する必要がありました、笑

<span class="title_name"> <a href="/?id=2124">Fairwood</a></span>

と：

のは、私のラインがあるとしましょう"フェアウッド"は、異なるIDとタイトルで、同様にフォーマットされたいくつかの行を与えられます。事前に

おかげで

出典

2017-06-09 Ryan Xu

なぜdownvotes？小さなコメントがもっと役立つかもしれません。 –

文字列 'href'を検索し、'> 'に遭遇した直後にキャプチャを開始し、' <' – Haris

が見つかるまであなたはこのSOの投稿を見てください：https://stackoverflow.com/questions/11709079/parsing-html-using-pythonとHTMLを解析するためにregexを使用したことがないようにしてください。 https://stackoverflow.com/a/1732454/190823 – Jens

パーサーソリューションの何が問題になっているのですか？

import xml.etree.ElementTree as ET 
root = ET.fromstring('<span class="title_name"> <a href="/?id=2124">Fairwood</a></span>') 
print(root.find("a").text) 
# Fairwood

出典

2017-06-09 09:22:37 Jan

形式同様場合は、試すことができます。

import re 
html=''' 
<span class="title_name1"> <a href="/?id=2124">Fairwood1</a></span> 
<span class="title_name2"> <a href="/?id=2125">Fairwood2</a></span>''' 
print re.findall(r'\w+(?=</a></span>)',html,re.M)

出典

2017-06-09 09:25:37 Kerwin

マルチラインフラグは不要です一致するアンカーがない場合。 – Jan

私のHTML行のタイトルの抽出

答えて

関連する問題