2017-06-05 28 views
0

Web上で見つかる独特のhtmlのケースでは、親HTMLタグ内に複数のhtmlタグを持つhtmlドキュメントがあります。私はhtmlタグの内容を解析したいと思います。誰かがそうするよう指示することができますか?HTMLタグ内のHTMLタグの内容をBeautifulSoupで解析する方法は?

ありがとうございます。

編集1:BeautifulSoup

soup = BeautifulSoup(html, "lxml") 

を使用 は、親htmlとその中に存在するタグを提供します。

しかし、私はブラウザがHTMLをレンダリングできると仮定しています。BSはそれを解析できるはずです。その仮定は正しい?

編集2: 実際には、htmlは不正な形式のhtmlです(私はここにいると仮定しています)。これは私がbeautifulsoupで解析しているHTMLです。何とかテーブルと1番目(最も外側)のhtmlを取得しています。私は手動で複数のHTMLタグを削除し、1つのhtmlタグを保持する場合、私はBSでテーブルを解析することができます。そこで質問「以下のHTMLを解析し、ファイル内の最も内側またはすべてのテーブルからデータを取得する方法はありますか?

<!DOCTYPE html> 
<html> 
<head> 
    <title>Some Title</title> 
</head> 
<body> 
    some html to display the tables. 
    <html> 
     <head></head> 
     <title>Some other title</title> 
     <body> 
      some html to display even more tables. 
     </body> 
    </html> 
</body> 
</html> 
+0

あなたはURLを与え、あなたはそれから抽出しようとしているものを説明した場合、それは役立つだろう。 –

答えて

0

ここでは、サンプルコードでは、内部の特定のテキストを検索するために使用することができますhtmlタグの特定の種類ここで

soup2 = BeautifulSoup(x, 'html.parser') 
    for i in soup2.find_all('ul', attrs={'class': 'results-base'}): 
     for j in i.find_all('li'): 
+0

私は詳細を含むように質問を更新しました。前もって感謝します。 – Kaustubh

0

は、あなたの質問に関連しているいくつかのサイトがあり、私はあなたが探しているもののために良い答えを見つけることができると思います。

  1. http://www.compjour.org/warmups/govt-text-releases/intro-to-bs4-lxml-parsing-wh-press-briefings/
  2. Using BeautifulSoup to find a HTML tag that contains certain text
  3. Find index of tag with certain text in beautifulsoup/python
+0

問題を解決する方法についていくつかのコード例を追加できますか? –

関連する問題