私はPythonでいくつかの要素から電話番号と住所を取得するためのスクリプトを書いています。事は私が電話番号を解析しようとした方法は間違いなく乱雑です。私は住所のために同じことをすることができます。しかし、よりクリーンで良い方法がありますか?データが埋め込まれた内電話番号と住所を解析できません
要素:ところで
(330)971-7456
:
from lxml.html import fromstring
tree = fromstring(html_content)
phone = ' '.join([elem.text_content().strip().split()[-2] for elem in tree.cssselect("div")])
phone1 = ' '.join([elem.text_content().strip().split()[-1] for elem in tree.cssselect("div")])
print(phone+phone1)
結果:
html_content='''
<div style="">
<strong>Pamela Banchy, Chief Information Officer</strong>
<br>Western Reserve Hospital<br>
<br>Lyndhurst, OH <br>
<a href="mailto:[email protected]">[email protected]</a>
<br>(330) 971-7456<br>
</div>
'''
式とスクリプトが、私は電話番号を解析するために使用しました、アドレスはLyndhurst, OH
、電話番号は(330)971-7456
ですadyは乱雑なやり方でつかまった。
はあなたからの情報、あるいはこの1つだけを抽出するために多くの類似のタグを持っていますか? – Reti43
多くの同様のbrタグですが、一般的なことは電話番号が最後の位置にあり、アドレスが3番目にあることです。 – SIM