Web上で見つかる独特のhtmlのケースでは、親HTMLタグ内に複数のhtmlタグを持つhtmlドキュメントがあります。私はhtmlタグの内容を解析したいと思います。誰かがそうするよう指示することができますか?HTMLタグ内のHTMLタグの内容をBeautifulSoupで解析する方法は?
ありがとうございます。
編集1:BeautifulSoup
soup = BeautifulSoup(html, "lxml")
を使用 は、親htmlとその中に存在するタグを提供します。
しかし、私はブラウザがHTMLをレンダリングできると仮定しています。BSはそれを解析できるはずです。その仮定は正しい?
編集2: 実際には、htmlは不正な形式のhtmlです(私はここにいると仮定しています)。これは私がbeautifulsoupで解析しているHTMLです。何とかテーブルと1番目(最も外側)のhtmlを取得しています。私は手動で複数のHTMLタグを削除し、1つのhtmlタグを保持する場合、私はBSでテーブルを解析することができます。そこで質問「以下のHTMLを解析し、ファイル内の最も内側またはすべてのテーブルからデータを取得する方法はありますか?
<!DOCTYPE html>
<html>
<head>
<title>Some Title</title>
</head>
<body>
some html to display the tables.
<html>
<head></head>
<title>Some other title</title>
<body>
some html to display even more tables.
</body>
</html>
</body>
</html>
あなたはURLを与え、あなたはそれから抽出しようとしているものを説明した場合、それは役立つだろう。 –