0
私ははリクエスト
ソースのウェブサイトはニシキヘビをされた要求使用して一意のURLを捕獲しようとしているのうち、特定のhrefを取得できませんhttps://www.realestate.com.au/property/1-10-grosvenor-rd-terrigal-nsw-2260
目標URL私が試しhttp://www.realestate.com.au/sold/property-unit-nsw-terrigal-124570934
ある
(Unique_ID,) = (x.text_content() for x in tree.xpath('//a[@class="property-
value__link--muted rui-button-brand property-value__btn-listing"]'))
返信するCSV 一覧を表示
間違っていない限り、正しいクラス検索を実行しました。hrefは十分にユニークではないでしょうか?私はテキストの代わりにURLをキャプチャするために何か別のことをやろうとしていますか?
必要に応じて以下の完全なコード。
ありがとうございます。
import requests
import csv
import datetime
import pandas as pd
import csv
from lxml import html
df = pd.read_excel("C:\Python27\Projects\REA_UNIQUE_ID\\UN.xlsx", sheetname="UN")
dnc = df['Property']
dnc_list = list(dnc)
url_base = "https://www.realestate.com.au/property/"
URL_LIST = []
for nd in dnc_list:
nd = nd.strip()
nd = nd.lower()
nd = nd.replace(" ", "-")
URL_LIST.append(url_base + nd)
text2search = '''The information provided'''
with open('Auctions.csv', 'wb') as csv_file:
writer = csv.writer(csv_file)
for index, url in enumerate(URL_LIST):
page = requests.get(url)
print '\r' 'Scraping URL ' + str(index+1) + ' of ' + str(len(URL_LIST)),
if text2search in page.text:
tree = html.fromstring(page.content)
(title,) = (x.text_content() for x in tree.xpath('//title'))
(Unique_ID,) = (x.text_content() for x in tree.xpath('//a[@class="property-value__link--muted rui-button-brand property- value__btn-listing"]'))
#(sold,) = (x.text_content().strip() for x in tree.xpath('//p[@class="property-value__agent"]'))
writer.writerow([title, Unique_ID])
以下のようにお願いします
@href
をこすりしてみてください! – James2086