Pythonを使用して間違って閉じたHTMLタグを簡単に修正する方法はありますか?例えば、私が持っている:PythonのHTMLタグ修正
<p><b>blabla</p></b>
し、それを変更したい:
<p><b>blabla</b></p>
Pythonを使用して間違って閉じたHTMLタグを簡単に修正する方法はありますか?例えば、私が持っている:PythonのHTMLタグ修正
<p><b>blabla</p></b>
し、それを変更したい:
<p><b>blabla</b></p>
あなたはpytidylibを使用することができます。
何を試しましたか?例えば。 Google: "python tidy html"?とにかく、この記事を参照してください。あなたは外部ライブラリなしでそれをしたい場合は
は、あなたがまだ取り替えるいくつかの正規表現でそれを行うことができます(例えば、すべての</p>[^<]*?</b>
(re.DOTALL
を有効にしてを置き換えます)〜</b></p>
,this is not the recommended way to modify/parse HTML
ありがとう!それは役に立つと思われる。 – pomel
サードパーティのライブラリを使用したいと思っていましたが、唯一の方法です。 – pomel
@pomel外部ライブラリなしで私の更新された答えを見てください。 –
HTMLは本当に複雑な獣です。 「正しい」HTMLとは何ですか?それを定義する膨大な文書があります。どのタグを閉じる必要がありますか?そうであれば、終了タグはどこに追加する必要がありますか?それは推測であり、間違いなく自分でハックしたいと思うべきことではありません。外部の図書館を使用し、コーディングスキルをより扱いやすいものに保存します。 (または、必要に応じてライブラリから取得する自動補正を改善する)。 – alexis