2016-10-29 18 views
2

比較的新しいBeautifulSoupが新しく追加されました。ローカルに保存されたhtmlファイルから生のhtmlを取得しようとしています。私は周りを見回し、私はおそらくこれのために美しいスープを使用すべきであることを発見しました。しかし、私がこれを行うとき:BeautifulSoupを使用してローカルに保存されたhtmlファイルから生のHTMLを抽出する

from bs4 import BeautifulSoup 
url = r"C:\example.html" 
soup = BeautifulSoup(url, "html.parser") 
text = soup.get_text() 
print (text) 

空の文字列が印刷されます。私はいくつかのステップを欠場していると思います。正しい方向へのどんな振る舞いも非常に高く評価されます。

答えて

3

BeautifulSoupの最初の引数はURLではなく実際のHTML文字列です。ファイルを開き、その内容を読み、それを渡します。

関連する問題