2016-05-02 6 views
0
from bs4 import BeautifulSoup 
import urllib 
import json 
import os 

jaren = [str("2012"), str("2010"), str("2006"), str("2003"),str("2002"), str("1998"), str("1994"), str("1989"), str("1986"), str("1982"), str("1981"), str("1977"), str("1972"), str("1971"), str("1967"), str("1963"), str("1959"), str("1956")] 
DESIRED_COLUMNS = {1, 2, 5} #scrapes only afk, aantal & zetels 
verkiezingsData = [] 

filename = raw_input('Enter a filename: ') or 'data.json' 

#open file and open json array 
with open(filename, "w") as file: 
    file.write("[{") 
for Jaargetal in jaren: 

    #url source 
    r = urllib.urlopen("http://www.nlverkiezingen.com/TK" + Jaargetal +".html").read() 
    soup = BeautifulSoup(r, "html.parser") 
    tables = soup.find_all("table") 
    for table in tables: 
     header = soup.find_all("h1")[0].getText() 

     #print header 
     with open(filename, "a+") as file: 
       file.write("\"%s\": [" % header) #header as beginning json 
     trs = table.find_all("tr")[0].getText() 
     del verkiezingsData[:] #clear list before adding new data 


     #add the 3 columns to a list 
     for tr in table.find_all("tr")[1:22]: #22 columns top till bottom 
      for index, val in enumerate(tr.find_all('td')): 
        if index in DESIRED_COLUMNS: #linkt naar desired columns bovenin 
         verkiezingsData.append(val.getText().strip()) 


     #json array van de 3 vallues 
     for a, b, c in zip(verkiezingsData[::3],  verkiezingsData[1::3], verkiezingsData[2::3]): #link naar desired columns 1,2,5 
      data2 = {'afk':a,"aantal":b, "zetels":c} 

      #file writing 
      with open(filename, 'a') as outfile: 
       json.dump(data2, outfile) 
        outfile.write(",") 


     #open file, delete last comma and close array 
     with open(filename, 'ab+') as file: 
       file.seek(-1, os.SEEK_END) 
       file.truncate() 
       file.write("],") 

#open file, delete last comma, and close array 
with open(filename, 'r+b') as file: 
    file.seek(-1, os.SEEK_END) 
    file.truncate() 
    file.write("}]") 

#open file and pretty print json data 
with open(filename, 'r') as file: 
    prettydata = json.load(file) 
with open(filename, 'w') as file: 
    json.dump(prettydata, file, sort_keys=True, indent=4, separators=(',', ': ')) 

を停止する必要があります唯一の問題は、たとえば:行は、私はそれが今私が持っている <p>Aantal/AFK/Zetels</p>を削るnlverkiezingen.com</p> <p>から掻き取るスクレーパーを作った/ beautifulsoup/JSON

http://www.nlverkiezingen.com/TK1959.html

です。

1959>の行までZetels 8

1963>私は私のコードでこれを調整することができますどのように行10

までZetels?テーブル行に "zetels"がもうないときにコードが停止することを知っていること。

答えて

1

は、単に列には内容がないことを確認し、ループ終了:

# add the 3 columns to a list 
for tr in table.find_all("tr")[1:22]: #22 columns top till bottom 
    cells = tr.find_all('td') 

    # no Zetels value - break 
    if not cells[5].get_text(): 
     break 

    for index, val in enumerate(cells): 
     if index in DESIRED_COLUMNS: #linkt naar desired columns bovenin 
      verkiezingsData.append(val.getText().strip()) 
+0

は、それを追加しました代わりに、あまりにもお互いにお互いNEX下のJSONファイルを作ったが、それはで停止していませんいくつかの場所での細胞からの破壊。 "aantal": "62829"、 "afk": "E \ u00e9nNL"、 "zetels": "" – Danisk

関連する問題

 関連する問題