私はCS勉強をしようとしているWeb掻爬とすべてのやりとりと一緒に来ていないです。 iMacrosと他のデータを使って「ツール」を掻き集めた後、私はPythonに目を向ける。その言語は当時よく知られていなかった。私はBeautifulSoupとurllib2について学び、stackoverflowや他のいくつかのフォーラムを通してそれを学ぶことで自分のやり方を駄目にしました。データ、ヘッドレスブラウザ、およびPythonを削るの
これまでに得られた知識を使用して、ほとんどの静的なWebページをスクラップできます。しかし、静的ページの時代は終わっていると私たちは皆、知っています。
私は誰かがここで正しい方向に私を導いて欲しいです。私はJavascriptを搭載したWebページをロードし、すべてのコンテンツをロードし、このデータを何らかの形でBeautifulSoup関数に取り込む方法を学びたいと考えています。 Urllib2はそれを吸う。フォームを入力してボタンのクリックをナビゲートする機能も好きです。
ほとんどの場合、興味のあるウェブサイトは、スクロールしながら読み込まれる結果の長いリストで構成されています。それらをすべて読み込んで、ページをダウンロードしても、それは役に立たないようです(なぜそうは分かりません)。私はWindows 7を使用しており、Python 2.7.5をインストールしています。
私は、ゾンビやゴーストのようなヘッドレスブラウザが私を助けてくれると言われてきましたが、私は本当にそれらについてよく知りません。私は機械化のようなライブラリを使ってみましたが、必要なもの、つまり結果をロードしたり、ウェブページを取得したり、BS4にフィードしたりすることはありません。
Pythonについての私の最小限の知識を念頭に置いて、誰でもここで私を助けることができますか?
おかげphantomjsと
JavaScriptはおそらく、いくつかの外部JSON/XML/PHPサーバーからリソースを取得しています。 FirebugまたはChromeデベロッパーツールを使用して、そのソースを見つけてそこからスクレイプします。 –
あなたはそれについて正しいと思いますが、ヘッドレスブラウザやそのようなものを使用して、問題の一般的な解決策をもっと期待しています –
私はそれについて知らない、残念です:( –