2016-11-21 6 views
1

私は安全なウェブサイト(例:Salesforce)にログインするためにPythonを使用する方法を模索しており、特定のページに移動し、ロケーション。セキュリティで保護されたWebサイトにログインし、PDFとして自動的にページを印刷

私が使用して試してみました:

  1. pdfkit.from_url:使用要求を、セッションクッキーを取得し、それを解析しwkhtmltopdfのオプションの設定にクッキーとしてそれを渡します。このメソッドは、pdfkitが渡されたCookieを認識できないために機能しません。

  2. pdfkit.from_file:私が印刷したいページのhtmlを取得するには、Request.getを使用し、pdfkitを使用してhtmlファイルをpdfに変換します。これは動作しますが、ページのフォーマットとイメージはすべて欠落しています。

  3. Selenium:Webdriverを使用してログインし、必要なページに移動してwindows.print関数を呼び出します。私はウィンドウのSaveAsダイアログに引数を渡すことができないので、これは機能しません。

だれも周りを回る考えはありますか?

  • 使用はIMGタグを識別するHTML(使用beautifulsoup)
  • を解析するHTMLページを取得するためにクッキー
  • 使用セッション
  • を追跡するセッションメカニズムを要求リクエストを使用して

  • +0

    オプションは[スクリーンショットをセレンを使用して保存する](http://stackoverflow.com/questions/33692179/export-as-pdf-using-selenium-webdriver-screenshot)(PDFに変換)することもできます。 – Arya

    +0

    問題は、フルページのスクリーンショットが利用できず、テキストレンダリングがありません。 –

    答えて

    0
    • ログとCSSのリンク
    • ローカルで画像とCSSの文書をダウンロードする
    • ローカルでダウンロードした画像を指すようにimg src属性を書き換えます
    • は、ローカルの.htmlファイルにソリューション「HTML PDFへの」ローカルの.htmlファイルをレンダリングするためにどんな
    • 使用を新しいHTMLツリーをシリアライズローカルにダウンロードCSS
    • を指すようにCSSのリンクを書き換える
    関連する問題