私は美しいスープと、このサイトのテキストをプリントアウトしようとしてきたのエンコーディングを把握することはできません:サイトはちんぷんかんぷんと奇妙なキャラクターや他のパーサを返し解析するlxml
を使用し http://www3.forbes.com/entrepreneurs/25-most-expensive-schools-worth-every-penny/26/は美しいスープオブジェクト
wouldn何も返さない。私は、サイト<meta charset="UTF-8">
と一致するUTF-8としてエンコーディングを指定しようとしましたが、運がなかった。使用する正しいパーサーは何でしょうか、どのように実装しますか?私はBeautiful Soupの初心者で、シンプルで分かりやすい説明を本当に感謝しています。ありがとう!
from bs4 import BeautifulSoup
import urllib.request
URL = urllib.request.urlopen("http://www3.forbes.com/entrepreneurs/25-most-expensive-schools-worth-every-penny").read()
soup = BeautifulSoup(URL,'xml')
print(soup.text)
この素晴らしい、洞察力のある答えに加えて、OAはドキュメント、https://docs.python.org/3.4/howto/urllib2.htmlに興味があるかもしれません。 –