0
PythonとBeautifulSoupの新機能です。どんな助けも高く評価されていますリンクのリストから情報を取得してJSONオブジェクトにダンプする方法を教えてください。
私はどのように構築するのか考えています企業情報のリストですが、それは1つのリンクをクリックした後です。
import requests
from bs4 import BeautifulSoup
url = "http://data-interview.enigmalabs.org/companies/"
r = requests.get(url)
soup = BeautifulSoup(r.content)
links = soup.find_all("a")
link_list = []
for link in links:
print link.get("href"), link.text
g_data = soup.find_all("div",{"class": "table-responsive"})
for link in links:
print link_list.append(link)
誰もが最初のサイトのための企業のリストデータのすべてのJSONを構築し、その後、リンクをこするについて移動する方法のアイデアを与えることができますか?
より良い視覚化のためにサンプル画像を添付しました。
個々のリンクをクリックすることなく、以下の例のようにサイトをスクラップしてJSONを作成するにはどうすればよいですか?
例予想される出力:
all_listing = [ {"Dickens-Tillman":{'Company Detail':
{'Company Name': 'Dickens-Tillman',
'Address Line 1 ': '7147 Guilford Turnpike Suit816',
'Address Line 2 ': 'Suite 708',
'City': 'Connfurt',
'State': 'Iowa',
'Zipcode ': '22598',
'Phone': '00866539483',
'Company Website ': 'lockman.com',
'Company Description': 'enable robust paradigms'}}},
`{'"Klein-Powlowski" ':{'Company Detail':
{'Company Name': 'Klein-Powlowski',
'Address Line 1 ': '32746 Gaylord Harbors',
'Address Line 2 ': 'Suite 866',
'City': 'Lake Mario',
'State': 'Kentucky',
'Zipcode ': '45517',
'Phone': '1-299-479-5649',
'Company Website ': 'marquardt.biz',
'Company Description': 'monetize scalable paradigms'}}}]
print all_listing`
ええと...あなたは実際のURLを私たちに提供しますか? –
@cᴏʟᴅsᴘᴇᴇᴅええ、実際のURLは問題ありません。[link](http://data-interview.enigmalabs.org/companies/) – Vash
これはセレン+ bs4の仕事のようです。 –