2017-10-19 22 views
0

すべてのXMLファイルをWebページからダウンロードしようとしています。このプロセスでは、xmlファイルのダウンロードリンクを順番に見つける必要があります。このようなダウンロードリンクをクリックすると、ダウンロードを開始するために提出する必要があるフォームが表示されます。私が直面する問題は、これらのループの繰り返しにあります。最初のファイルがWebページからダウンロードされると、エラーが表示されます。Python Selenium:反復エラー

"selenium.common.exceptions.StaleElementReferenceException:メッセージ:staleの要素参照:要素がDOMに接続されていないか、ページがリフレッシュされている」

"97081 data-extension xml"は、2番目にダウンロード可能なファイルです。私はここにコードを添付しましたが、これを修正するための提案は非常に高く評価されます。

import os 
import time 
from selenium import webdriver 
from selenium.webdriver.common.keys import Keys 
from selenium.webdriver.support.ui import WebDriverWait 
from selenium.webdriver.support import expected_conditions as EC 
from selenium.webdriver.common.by import By 

fp = webdriver.FirefoxProfile() 

fp.set_preference("browser.download.folderList", 2) 
fp.set_preference("browser.download.manager.showWhenStarting", False) 
fp.set_preference("browser.download.dir", "F:\Projects\Poli_Map\DatG_Py_Dat") 
fp.set_preference("browser.helperApps.neverAsk.saveToDisk", "text/xml") 

driver = webdriver.Firefox(firefox_profile=fp) 

driver.get('https://data.gov.in/catalog/variety-wise-daily-market-prices-data-cauliflower') 
wait = WebDriverWait(driver, 10) 

allelements = driver.find_elements_by_xpath("//a[text()='xml']") 

for element in allelements: 
    element.click() 
    class FormPage(object): 
     def fill_form(self, data): 
      driver.execute_script("document.getElementById('edit-download-reasons-non-commercial').click()") 
      driver.execute_script("document.getElementById('edit-reasons-d-rd').click()") 
      driver.find_element_by_xpath('//input[@name = "name_d"]').send_keys(data['name_d']) 
      driver.find_element_by_xpath('//input[@name = "mail_d"]').send_keys(data['mail_d']) 
      return self 

     def submit(self): 
      driver.execute_script("document.getElementById('edit-submit').click()") 

    data = { 
     'name_d': 'xyz', 
     'mail_d': '[email protected]', 
    } 
    time.sleep(5) 
    FormPage().fill_form(data).submit() 

    time.sleep(5) 
    window_before = driver.window_handles[0] 
    driver.switch_to_window(window_before) 
    driver.back() 

答えて

0

解決方法が見つかりました。フィールドを送信する必要はありません。

あなたは(その962721たとえばここ)この絵の下にクラスフィールドにIDを取得する必要があり

enter image description here

次に、そのようにこのURLを使用します。 https://data.gov.in/node/962721/download

これは、ちょうど "リバースエンジニアリング"をやっていることがわかりました。 Webスクラップを行うときは、.jsファイルとネットワーキングタブを常に見て、すべての要求を確認してください。