次のURLのデータをPythonを使用して削りたいと思っています。 http://www.hankyung.com/stockplus/main.php?module=stock&mode=stock_analysis_infomation&itemcode=078340Pythonを使用してjavascriptで生成されたデータを掻き立てる
会社概要の概要です。
最初のページにスクラップしたいものは表示されません。 "財産明細"タブをクリックすると、財務諸表にアクセスできます。そして、名前のタブをクリックするキャッシュ・フローの「현금흐름표」を、あなたがアクセスすることができます 『』。
を私はこすりしたい 『キャッシュ・フロー』のデータを。
しかし、キャッシュ・フロー・データは、URL全体ではJavaScriptによって生成される。 次のリンクは隠されているURL、http://stock.kisline.com/compinfo/financial/main.action?vhead=N&vfoot=N&vstay=&omit=&vwidth=
キャッシュ・フロー・データは、このURLにいくつかのオプションの値とクッキーを提出することによって生成されるということです。あなたが知覚される
、最初のリンクでitemcode = 078340は、証券コードを意味し、キャッシュフローデータを収集したいと思っている株式は1680株もあります。蟻はそれをループ構造にします。
キャッシュフローデータをスクラップする良い方法はありますか? 私はscrapyを試みましたが、私が使っているもう一つのscrapingコードには治療が難しいです。
データは、サーバーからのajaxによって引っ張られるか、何とか(JS変数や 'data-'のように)html内に格納されますか? – Tadeck
サービス規約はこれを可能にしますか? – luke14free
Tadeckでは、データはサーバーから取得されます。 – trigger