1
私はpython 3.5で美しいスープを使って次のウェブサイトの表から情報を抽出したいと思います。美味しいスープはテーブルのヘッダーを抽出するだけです
http://www.askapatient.com/viewrating.asp?drug=19839&name=ZOLOFT
私のプログラムはオフラインで動作する必要があるため、最初にウェブページを保存する必要があります。
私のコンピュータにウェブページを保存しました。次のコードを使用してテーブル情報を抽出しました。しかし、問題は、コードがテーブルの見出しを抽出することだけです。
これは私のコードです:
from urllib.request import Request, urlopen
from bs4 import BeautifulSoup
url = "file:///Users/MD/Desktop/ZoloftPage01.html"
home_page= urlopen(url)
soup = BeautifulSoup(home_page, "html.parser")
table = soup.find("table", attrs={"class":"ratingsTable" })
comments = [td.get_text() for td in table.findAll("td")]
print(comments)
そして、これはコードの出力です:
['RATING', '\xa0 REASON', 'SIDE EFFECTS FOR ZOLOFT', 'COMMENTS', 'SEX', 'AGE', 'DURATION/DOSAGE', 'DATE ADDED ', '\xa0’]
私は、テーブルの行のすべての情報が必要になります。 ご協力いただきありがとうございます!
ありがとうございました!私はPython 3.5を使用しています。コードに次のエラーがあります。 "ImportError:名前の要求をインポートできません" – Mary
@Maryは、ページソース部分のダウンロードは実際にはここでは関係ありません。しかし、この例をそのまま使用するには、['requests'モジュール](http://docs.python-requests.org/ja/master/)をインストールする必要があります。 – alecxe
私はそれを高く評価します。どうもありがとうございます ! – Mary