1
私はウェブスクレイピングに新しいです。私は最初のページhrefを掻き集めて、各hrefに行き、クラス 'address-data'.iに' pタグ 'を見つけたウェブサイトからデータを削っています.iは1つのURLを保存したい私のデータは 'myUrl'に追加されています。CSVファイルにデータを保存したいと思います。たとえば、アドレス、経度、電話番号、電子メール、そして新しい行が始まります。ここ csvファイルにスクラップデータを追加するには?
は私のコードです:
from bs4 import BeautifulSoup
import requests
import csv
myUrl=[]
urls = ["http://www.shaditayari.pk/s&category=326&location=266&a=true&paged{}".format(i) for i in range(1, 10)] # make a url list and iterate over it
for url in urls:
r = requests.get(url)
print('idr1')
soup = BeautifulSoup(r.text, "html.parser")
for link in soup.find_all('a', {'main-link'}):
iurl=link.get('href')
r = requests.get(iurl)
print(iurl)
soup = BeautifulSoup(r.content, "lxml")
with open ('lhr.cv','wb') as file:
divs = soup.find_all('div',attrs={"class":"address-data"})
for div in divs:
myUrl.append(div.find('p').text)
#print(myUrl)
with open ('lhr.cv','w') as file:
writer=csv.writer(file)
for row in myUrl:
writer.writerow(row)
予想される出力:私は、Python 2でこれを書かれたと私は思うので、彼らはきれいだし、(XPathを使用してきました
9 Fane Road، Lahore 54000, Pakistan|1.561381309140028|74.31484723624567|042-37363901-9|[email protected]/[email protected]/ [email protected]
1/E-3, Main Boulevard Gulberg III, Lahore|31.525700029363|74.34930089283|0305-2960614|https://www.facebook.com/pages/Zauk-Banquet-Hall/204612846290857
**あなたは 'soup.find_all'の前にCSV **を開きます。ファイルを開き、**データを書きたいとします。 –
@ cricket_007私はそれを開いた。 –
Pythonのコード/書式設定を適用せずにスクレイプしたいURLの例を挙げてください。 – cstaff91