2012-01-07 9 views
0

認証されたページにログインしてpdfをダウンロードするスクリプトを作成する必要があります。カールを使った高度なスクリーンスクレービング

しかし、私がダウンロードする必要があるpdfはURLにありませんが、ページ上の特定のinputボタンをクリックすると生成されます。 HTMLソースをチェックすると、ボタングラフィックのURLとボタン、ボタンinputaction="."のあいまいなものしか表示されません。 /WebObjects/MyStore.woa/wo/5.2.0.5.7.3

  • 入力名=私がログインする方法0.0.5.7.1.1.11.19.1.13.13.1.1
  • =

    • URL:

      また

      、両方のボタンがあり、URLとフォーム名には、例えば、隠されていますそのボタンをクリックして、スクリプト内でpdfファイルをダウンロードしますか?

    答えて

    2

    機械化または綾織りを試してください。 HttpFoxまたはFirebugを使用すると、クエリを作成するのに役立ちます。ブラウザからクッキーをピックルし、後でpyライブラリで使用することを忘れないでください。コードがjavascriptによって生成された場合、それを 'リバースエンジニアリング'することが可能です。 nofの場合、javascriptを解釈したり、セレンや風車を使って実際のブラウザをスクリプト化することができます。

    3

    Mechanizeモジュールが役に立ちます。

    ボタンをクリックすると、javascriptを使用してURLが生成される可能性があります。つまり、Pythonスクリプトからjavascriptコードを実行するには、Spidermonkeyをご覧ください。

    1

    ボタンをクリックしたときにどのようなリクエストが行われたかを知ることができます(FirefoxのFirebugまたはChromeの開発者ツールを使用)。その後、PDFを直接リクエストすることができます。

    問題のページが表示されていないと手伝ってもらえません。

    0

    Acornによると、実際のリクエストを監視し、パターンを見つけることができるかどうかを確認する必要があります。

    もしそうでなければ、実際には完全機能のブラウザを自動化してJavascriptを実行できるので、通常のユーザーのやり方をまったく模倣します。 Python Wikiのthis pageをご覧ください。Python Wrappers(Web "ライブラリ")とブラウザ技術を参照してください。

    関連する問題