2016-07-12 15 views
1

私は各ファイルの最初のタグを取得したいHTMLファイルのセットを持っています。ファイルには常にファイルの先頭になる特定のタグがないので、これを行う方法がわかりません。BeautifulSoupでHTMLファイルの最初のタグを見つける

例として、次のスニペットでは、最初のタグは<html>となります。

<html> 
<head> 
    <title> 
    insert title here 
    </title> 
</head> 
</html> 

BeautifulSoup(または別のツール)でこれを達成する方法はありますか?ありがとうございます。

+0

HTMLファイルがある場合は、 '<'で始まる最初の行を探してみませんか? –

+0

私は可能でしたが、ファイルの他の操作にbs4を使用する必要があるため、何かが組み込まれているかどうか疑問に思っていました。 – atarw

+0

すべてのHTML文書の最初のタグが ''なので、あなたの質問は正確には分かりません。 –

答えて

1

BeautifulSoupこの場合、をBeautifulSoupオブジェクトに発行すると、ツリーの最初の要素が見つかります。 .nameは、あなたにタグ名を与えます:

from bs4 import BeautifulSoup 

data = """ 
<html> 
<head> 
    <title> 
    insert title here 
    </title> 
</head> 
</html> 
""" 

soup = BeautifulSoup(data, "html.parser") 
print(soup.find().name) 
関連する問題