2017-06-09 6 views
-3

html行のタイトルを抽出する質問があります。 私のHTML行のタイトルの抽出

はどうすれば自動的に抽出しようとして行くだろう..私は、ハイパーリンクとして表示されないためにラインのためにいくつかの余分なスペースを追加する必要がありました、笑

<span class="title_name"> <a href="/?id=2124">Fairwood</a></span> 

と:

のは、私のラインがあるとしましょう"フェアウッド"は、異なるIDとタイトルで、同様にフォーマットされたいくつかの行を与えられます。事前に

おかげで

+1

なぜdownvotes?小さなコメントがもっと役立つかもしれません。 –

+0

文字列 'href'を検索し、'> 'に遭遇した直後にキャプチャを開始し、' <' – Haris

+0

が見つかるまであなたはこのSOの投稿を見てください:https://stackoverflow.com/questions/11709079/parsing-html-using-pythonとHTMLを解析するためにregexを使用したことがないようにしてください。 https://stackoverflow.com/a/1732454/190823 – Jens

答えて

0

パーサーソリューションの何が問題になっているのですか?

import xml.etree.ElementTree as ET 
root = ET.fromstring('<span class="title_name"> <a href="/?id=2124">Fairwood</a></span>') 
print(root.find("a").text) 
# Fairwood 
0

形式同様場合は、試すことができます。

import re 
html=''' 
<span class="title_name1"> <a href="/?id=2124">Fairwood1</a></span> 
<span class="title_name2"> <a href="/?id=2125">Fairwood2</a></span>''' 
print re.findall(r'\w+(?=</a></span>)',html,re.M) 
+0

マルチラインフラグは不要です一致するアンカーがない場合。 – Jan

関連する問題