2017-12-13 19 views
0

: bs4とlxmlはオプションではないので、サードパーティのモジュールを使用することはできません。
xml.minidomが壊れたXMLを解析できるか

Python 3 std libでHTMLを解析する必要があります。私はxml.minidomが行く方法だと思ったが、構文エラーのような例外をスローせずに無効なXML/HTMLを解析することはできないようだ。

xmlモジュール内で何か探しているものが見つからないのですか?

私はstdライブラリで何かを見逃していますか?あなたが壊れたHTML/XMLを処理する必要がある場合

答えて

-2

は、私がそのはず、あなたはhtml.parserとのより良いチャンスを持っている、あなたは正当化されるサードパーティ製のモジュールを使用することができないと仮定すると、美しいスープ4

+0

私が言ったように、私はbs4や他のサードパーティのモジュール –

1

をckechすることをお勧めします解析処理をより低レベルで制御できます。

xml.dom.minidom、私は恐らく、壊れた文書を解析することはできません。