2017-01-05 32 views
-1

これがこの質問の正しいフォーラムであるかどうかはわかりませんが、本当にありがとうございます。オンラインデータをCSVファイルに書き込む

「Texas Dept. Of Criminal Justice」で記録された実行犯罪者に関する情報を含むこの面白いデータセットが見つかりました。

http://www.tdcj.state.tx.us/death_row/dr_executed_offenders.html

私はデータで遊んするつもりと囚人の最後の言葉の感情分析は興味深い何かを引き出すかどうかを確認します。しかし、わかるように、データはCSVファイルの形式ではありません。使用可能なCSVファイルに変換するにはどうすればよいですか。私はPythonに慣れています。

タイムアウトに感謝します。

+1

これはいくつかの宿題に関する質問です。私は以前の質問と全く同じリンクを見たことがあります – e4c5

+0

HTMLコンテンツから情報をスクラップする方法については、Checkout [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/)をご覧ください。チュートリアルを参照し、作業するコードを提示してください。 –

答えて

1

あなたが探しているのはあなたです。あなたはあなたがいるページを掻き集めるだけでなく、テーブルのリンクから最後の単語を掻き取る必要があります。私はあなたがテーブルを手に入れるのを手伝ってくれるでしょう。それは最後の言葉のために他のページからどのようにデータを得るか考えてください。行を取得するために

>>> from bs4 import BeautifulSoup 
>>> from urllib.request import Request, urlopen 
>>> soup = BeautifulSoup(urlopen('http://www.tdcj.state.tx.us/death_row/dr_executed_offenders.html')) 
>>> table = soup.find('table') 
>>> headers = [header.text for header in table.find_all('th')] 
>>> rows = [] 
>>> for row in table.find_all('tr'): 
...  rows.append([val.text for val in row.find_all('td')]) 
... 
>>> rows 
...(your rows in csv)... 

、そのファイルからの最後の言葉をこすりするタグの各行の検索を行うと、それからのhrefを取得し、同様の処理を行うことになるでしょう。

関連する問題