2017-10-27 6 views
0

私ははリクエスト

ソースのウェブサイトはニシキヘビをされた要求使用して一意のURLを捕獲しようとしているのうち、特定のhrefを取得できませんhttps://www.realestate.com.au/property/1-10-grosvenor-rd-terrigal-nsw-2260

目標URL私が試しhttp://www.realestate.com.au/sold/property-unit-nsw-terrigal-124570934

ある

(Unique_ID,) = (x.text_content() for x in tree.xpath('//a[@class="property- 
value__link--muted rui-button-brand property-value__btn-listing"]')) 

返信するCSV 一覧を表示

間違っていない限り、正しいクラス検索を実行しました。hrefは十分にユニークではないでしょうか?私はテキストの代わりにURLをキャプチャするために何か別のことをやろうとしていますか?

必要に応じて以下の完全なコード。

ありがとうございます。

import requests 
import csv 
import datetime 
import pandas as pd 
import csv 
from lxml import html 

df = pd.read_excel("C:\Python27\Projects\REA_UNIQUE_ID\\UN.xlsx",    sheetname="UN") 
dnc = df['Property'] 
dnc_list = list(dnc) 
url_base = "https://www.realestate.com.au/property/" 
URL_LIST = [] 

for nd in dnc_list: 
    nd = nd.strip() 
    nd = nd.lower() 
    nd = nd.replace(" ", "-") 
    URL_LIST.append(url_base + nd) 

text2search = '''The information provided''' 

with open('Auctions.csv', 'wb') as csv_file: 
    writer = csv.writer(csv_file) 

    for index, url in enumerate(URL_LIST): 
     page = requests.get(url) 
     print '\r' 'Scraping URL ' + str(index+1) + ' of ' + str(len(URL_LIST)), 

     if text2search in page.text: 
      tree = html.fromstring(page.content) 
      (title,) = (x.text_content() for x in tree.xpath('//title')) 
      (Unique_ID,) = (x.text_content() for x in tree.xpath('//a[@class="property-value__link--muted rui-button-brand property- value__btn-listing"]')) 
      #(sold,) = (x.text_content().strip() for x in  tree.xpath('//p[@class="property-value__agent"]')) 
      writer.writerow([title, Unique_ID]) 

答えて

1

text_content()は、テキストのみを取得することができます。これは完全に働いた

(Unique_ID,) = (x for x in tree.xpath('//a[@class="property-value__link--muted rui-button-brand property-value__btn-listing"]/@href')) 
+0

以下のようにお願いします@hrefをこすりしてみてください! – James2086