私はいくつかのhtml要素からいくつかのテキストを取り出すためのスクリプトをPythonで書いています。スクリプトはそれを今解析することができます。しかし、問題は結果が奇妙に見えることです。どうすれば修正できますか?どんな助力も高く評価されます。スクラップされたテキスト間のスペースを取り除くことができません
これは、テキストから掻き取りする必要があるHTML要素である:私がいる
from lxml.html import fromstring
root = fromstring(html)
address = [item.text for item in root.cssselect(".postal-address p")]
print(address)
結果:
11525 23 AVE, EDMONTON,\n AB\n ,\n T6J 4T3\n
をこれは私がしようとしているスクリプトです
html="""
<div class="postal-address">
<p>11525 23 AVE</p>
<p>EDMONTON,
AB
,
T6J 4T3
</p>
<p><a rel="nofollow" href="mailto:[email protected]">[email protected]</a></p>
<p><a rel="nofollow" href="http://www.something.org" target="_blank">Visit our Web Site</a></p>
</div>
"""
期待される結果:
11525 23 AVE EDMONTON, AB, T6J 4T3
この行に.strip()
と.replace("\n","")
を貼り付けようとしましたが、[item.text for item in root.cssselect(".postal-address p")]
にはエラーnone type object
が投げられました。
Btw、私はregex
に関連する解決方法はありません。前もって感謝します。
このような効果的な答えをお寄せいただきありがとうございました。あなたは常に望ましい出力に特化しています。もう一度ありがとう。 – SIM