2016-11-10 13 views
0

私はウェブスクレイピングの初心者です。私はCOCAからいくつかのデータを掻き集めるこの小さなプロジェクトを持っていますが、私はどこから始めるべきか分かりません。このWebページはJavascriptを使用して構築されているようですが、私はそれと対話できるパッケージがあるのだろうか?ここでPythonを使用してJavaScriptウェブページとやりとりする方法は?

は、私は私のプログラムがしたいいくつかのタスクです:

  1. ログ1のアカウントを使用して、
  2. タブを選択します(例:検索、グラフなど、COCAを参照してください)。
  3. あなたが教科書で検索したい単語のタイプ。
  4. 検索結果をスクラップします。

ご意見をいただければ幸いです。

PS:理想的にはすべてがバックステージで動作するはずです(ブラウザは開かない)。

+0

[selenium](http://www.seleniumhq.org/)もあり、ウェブサイトでjsを実行することもできます。 – Marcin

+0

またはhttp://phantomjs.org – user1775888

+0

@Marcin返信いただきありがとうございます。はい、セレニウムを調べましたが、私のプログラムでブラウザを開くのは嫌です。理想的には、すべてが舞台裏で機能します。なにか提案を? – Bayesric

答えて

0
from pyvirtualdisplay import Display 
from selenium import webdriver 

display = Display(visible=0, size=(800, 600)) 
display.start() 

browser = webdriver.Firefox() 
browser.get('http://www.google.com') 
print browser.title 
browser.quit() 

display.stop() 
+1

pyvirtualdisplayにvisible = Falseを指定すると、Xvbfが必要になるため、Windowsマシンでは使用できないことに注意してください。 – np8

0

seleniumを使用できる人もいます。 ブラウザの開発者ツールに入力して、サイトのネットワーク要求に従うことをお勧めします。ページの動作に応じて、おそらくFirefoxのモジュールrequestを使用して、作成した要求をシミュレートできますサイト、個人的に私はそれがより簡単だと思います。 リクエストをエミュレートできない場合は、セレンを使用してください。

関連する問題