生のHTMLファイルがあり、スクリプトタグを削除しています。pythonどのようにブロックhtmlを識別するためのテキストが含まれていますか?
私は(、<h1> <p> <div>
などのようではない<a> <em> <b>
など)DOMでブロック要素を特定し、<div>
タグで囲みたいです。
Pythonで簡単に行う方法はありますか? 実際に私は、HTML文書を抽出するブロック要素に
おかげ
UPDATE
を識別するためのPythonでライブラリがあります。私はテキストを含むブロックを特定する必要があります。各テキスト要素について、ブロックとして表示される最も近い親要素を見つけなければなりません。その後、ブロックごとに、ブロックのサイズや位置などの特徴を抽出します。
'beautifulsoup'を検索https://www.crummy.com/software/BeautifulSoup/bs4/doc/ –
適切な検索エンジンであれば、この質問に対する回答が得られます... – jojo
それは有用だった – jojo