Pythonを使用してjavascriptで生成されたデータを掻き立てる

会社概要の概要です。

最初のページにスクラップしたいものは表示されません。 "財産明細"タブをクリックすると、財務諸表にアクセスできます。そして、名前のタブをクリックするキャッシュ・フローの「현금흐름표」を、あなたがアクセスすることができます『』。

を私はこすりしたい『キャッシュ・フロー』のデータを。

しかし、キャッシュ・フロー・データは、URL全体ではJavaScriptによって生成される。次のリンクは隠されているURL、http://stock.kisline.com/compinfo/financial/main.action?vhead=N&vfoot=N&vstay=&omit=&vwidth=

キャッシュ・フロー・データは、このURLにいくつかのオプションの値とクッキーを提出することによって生成されるということです。あなたが知覚される

、最初のリンクでitemcode = 078340は、証券コードを意味し、キャッシュフローデータを収集したいと思っている株式は1680株もあります。蟻はそれをループ構造にします。

キャッシュフローデータをスクラップする良い方法はありますか？私はscrapyを試みましたが、私が使っているもう一つのscrapingコードには治療が難しいです。

2012-04-07 trigger

データは、サーバーからのajaxによって引っ張られるか、何とか（JS変数や 'data-'のように）html内に格納されますか？ – Tadeck

サービス規約はこれを可能にしますか？ – luke14free

Tadeckでは、データはサーバーから取得されます。 – trigger

あなたはAJAXで更新されたページの内容をスケープする必要があると私は仕事のためのセレンブラウザのAutomatorを使用することになり、このAJAXインタフェースの制御になっていない場合：

2012-04-07 10:16:25

ありがとうございました。私はセレンを試してみるつもりです。 – trigger

私はjqueryをこのlxml + xpath部分の末尾に置き換えることができます（そして、残りの手順に従います）？ – abbood

Seleniumには独自のCSSセレクタエンジンが付属しているので、おそらくjQueryもlxmlも必要ありません。 –

もdryscape（で書かれたライブラリがあります私は、推薦はビットバイアスされている、明らかに:)高速Webkitベースのメモリ内のブラウザを使用して移動する。 Javascriptも理解していますが、Seleniumよりも軽量です。

2012-04-07 10:20:31

ありがとうございます。私はそれを試してみます – trigger

答えて