2016-06-13 7 views
-3

一種のコピー/ペースト形式でページからすべての情報を取得したいが、セキュリティ制限のためにサイトからurllibまたはjson情報を使用できない。 PythonがWebページを開き、HTMLコードやJSONをAPIから取得するのではなく、実際のページ自体をコピーする方法があるかどうか疑問に思っていましたか?urllibまたはjsonなしでサイトから情報を取得

+1

実際のページ自体を_copyとするとどういう意味ですか?ブラウザでページをレンダリングさせますか? – Finwood

+1

「実際のページ」の定義は興味がありますか?ページはhtmlとjavascriptです。 –

+0

[誰でも良いPythonベースのWebクローラを知っていますか?](http://stackoverflow.com/questions/419235/anyone-know-of-a-good-python-based-web-crawler -th-i-could-use) – kloddant

答えて

1

あなたはseleniumを通じて実際のブラウザでWebページをロードし、.page_sourceを取得することができます:

from selenium import webdriver 

driver = webdriver.Firefox() 
driver.get("url") 

print(driver.page_source) 
1

は依存...あなたは、標準のpythonを使用するようにしたいですか? yesの場合、:

  • は、Windows上にある場合、あなたは、あなたがcurl

    ​​

を使用することができますLinuxまたはMac上で bitsadmin

  • でページをダウンロードすることができます

    と合わせてsubprocess.check_output()

    そうでない場合は別の回答としてseleniumなどのパッケージに言及します。

  • 関連する問題