解析されたHTML文書のDOMツリーをブラウズする必要があります。Pythonで不正形式のHTMLを解析する方法
私は時々、私はエラーを取得するlxmlの
で= tidy.parseString(html_code、オプション) DOM = etree.fromstring(STR(a))は
を文字列を解析する前にuTidyLibを使用していますtidylibは不正な形式のhtmlを修復できないようです。
エラーを起こさずにすべてのHTMLファイルを解析できます(修復できないファイルの一部のみを解析する)。すでにlxmlのを使用しているので
+1、ここではElementSoupが優れた選択肢です。 –
リンクが切断されました。それらを編集しました。うまくいけば、新しい場所には、もともと指していたのと同じ内容が含まれています。 – tripleee
美味しいスープがインストールされていない場合は、Element Soupに必要な場合があります。ちょうど 'pip install beautifulsoup'を実行してください – BobTuckerman