2
私はpython3でウェブをスクラップするのが初めてです。私はドバイのすべてのホテルのレビューを掻き集めたいのですが、問題は私がURLで説明しているホテルのレビューだけを掻き集めることができることです。私はどのように私は暗黙のうちに各ホテルのURLを与えることなく、ホテルのレビューをすべて取得することができます私に示すことができますか?レビューの投稿フォームtripadvisor
import requests
from bs4 import BeautifulSoup
importurl = 'https://www.tripadvisor.com/Hotel_Review-g295424-d302778-Reviews-Roda_Al_Bustan_Dubai_Airport-Dubai_Emirate_of_Dubai.html'
r = requests.get(importurl)
soup = BeautifulSoup(r.content, "lxml")
resultsoup = soup.find_all("p", {"class" : "partial_entry"})
#save the reviews to a test text file locally
for review in resultsoup:
review_list = review.get_text()
print(review_list)
with open('testreview.txt', 'w') as fid:
for review in resultsoup:
review_list = review.get_text()
fid.write(review_list)
これはホテルの完全なリストではありませんが、最初のページのみからホテル:18ページ以上がある..あなたが得ることができる場合は、この@Andersson – Andersson
は、一例であり、 1ページ、ループを使用して18ページを取得するだけです。 –
しかし結果のページ番号はありません。 'URL'は常にhttp:// www.tripadvisor.cn/Hotels-g295424-Dubai_Emirate_of_Dubai-Hotels.htmlとなります。どのページであっても1番または19番... – Andersson