2016-11-10 8 views
0

私は美しいスープでhtmlやウェブのスクレイピングに慣れていません。私は様々な実際の求人情報から求職者、給料、所在地、会社名を検索しようとしています。これは、これまでの私のコードです:美味しいスープを実際に掻き集める

URL = "http://www.indeed.com/jobs?q=data+scientist+%2420%2C000&l=New+York&start=10" 
import urllib2 
import bs4 
from bs4 import BeautifulSoup 
soup = BeautifulSoup(urllib2.urlopen(URL).read()) 
resultcol = soup.find_all(id = 'resultsCol') 
company = soup.findAll('span', attrs={"class":"company"}) 
jobs = (soup.find_all({'class': " row result"})) 

私は仕事や会社を見つけるためのコマンドを持っているのに、私は内容を取得することはできません。私はcontentsコマンドがあることを知っていますが、私の変数のなかにこれまでの属性はありません。ありがとう!

答えて

1

まず私は1つの仕事を持つすべての要素をdivをWiki検索してから、私はこのdiv

import urllib2 
from bs4 import BeautifulSoup 

URL = "http://www.indeed.com/jobs?q=data+scientist+%2420%2C000&l=New+York&start=10" 

soup = BeautifulSoup(urllib2.urlopen(URL).read(), 'html.parser') 

results = soup.find_all('div', attrs={'data-tn-component': 'organicJob'}) 

for x in results: 
    company = x.find('span', attrs={"itemprop":"name"}) 
    print 'company:', company.text.strip() 

    job = x.find('a', attrs={'data-tn-element': "jobTitle"}) 
    print 'job:', job.text.strip() 

    salary = x.find('nobr') 
    if salary: 
     print 'salary:', salary.text.strip() 

    print '----------' 
+0

おかげ内の要素を検索します!どのように給料をかき集めるのか?ここでは、入れ子になったのです方法は次のとおりです。 ' 88305 $ - $ 146570年 ' – squidvision

+1

'x.find( 'NOBR')' – furas

+0

を試みたが、うまくいきませんでした。 – squidvision

関連する問題