2017-02-01 1 views
-1

私は多くのウェブサイトから日々更新されたURL(JavaScript)をたくさん削り取るウェブサイトを作るつもりです。私はいくつかの研究を行なったし、セレンを発見し、すでにウェブサイトからセレン削りjavascript

from selenium import webdriver 
chrome_path = r"C:\Users\hessien\Desktop\chromedriver_win32\chromedriver.exe" 
driver = webdriver.Chrome(chrome_path) 
driver.get("http://example.com") 
driver.find_element_by_xpath("""//*[@id="header"]/div/div[2]/div[3]/ul/li/label/a""").click() 
element = driver.find_element_by_xpath("""//*[@id="s"]""") 
element.send_keys("example") 
driver.find_element_by_xpath("""//*[@id="searchform"]/button/span""").click() 
driver.find_element_by_xpath("""//*[@id="contenedor"]/div/div[2]/div[1]/div[2]/article/div[2]/div[1]/a""").click() 
driver.find_element_by_xpath("""//*[@id="playex"]/div[1]""").click() 
elem = driver.find_element_by_xpath("""//*[@id="mediaplayer_media"]/video""").get_attribute("src"); 
print elem 

をURLを抽出するためにいくつかのコードを作ったが、いくつかの検索の後、私はセレンは主にこするとクロールのためのテストフレームワークではないとして使用することが判明!..私セレンは仕事をすることができますか?はいの場合は、HTMLボタンでpythonコードを実行する方法は?私もDjangoを使用しています。 いいえ、タスクを実行できることをお勧めできますか?

答えて

0

本当にスクラップを作成したい場合は、HTMLとXMLファイルからデータを取り出すためのPythonライブラリである美しいスープを使用することをお勧めします。 pythonスクリプトをdjangoに統合することができます。これは、クリックでトリガされます。 リンクは次のとおりです。

https://pypi.python.org/pypi/beautifulsoup4

+0

JavaScriptが有効になっているウェブサイトをスクラップできますか? – cockro

+0

JavaScriptを有効にしたウェブサイトのクロールをスプラッシュで行うことができます – coolboy920

+0

https://github.com/scrapy-plugins/scrapy-splash – coolboy920

関連する問題