私はこのテキストを持っている:HTMLタグ付き正規表現とエスケープ文字が
<h5 class="subblocksubhead subsubsectionhead first"><b>Messaggi inseriti</b></h5>
<dl class="blockrow stats">
<dt><b>Messaggi inseriti</b></dt>
<dd> 81</dd>
</dl>
<dl class="blockrow stats">
<dt>Media dei messaggi giornalieri</dt>
<dd> 0.02</dd>
</dl>
と私は、このコードを使用" 81"
を抽出しようとしている:私は常に取得
regex_message_sent_num=r'Messaggi inseriti<.+>\n\t\t<.+?>(\s.+)<.+?>'
pattern_message_sent_num=re.compile(regex_message_sent_num)
results_message_sent_num=re.findall(pattern_message_sent_num,html_text)
を空のリストを出力として返しますが、コードhereをテストすると、適切な抽出が得られます。
私が間違っていることを知っていますか? HTMLは私が運動として目に見えるデータを抽出しようとしているウェブページから来ています。私は、chromeブラウザから保存されたHTMLテキストで正規表現をテストしました。
*「私が間違っていることは何ですか?」* - はい!あなたは[正規表現でHTMLを解析する](http://stackoverflow.com/a/1732454/3001761)しようとしています。 **実際のHTMLパーサー**、[Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/)などを使用してください。 – jonrsharpe
提案していただきありがとうございます、私はあなたが提案したツールを使用します。 –