2017-10-30 13 views
0

オークションでリアルタイムの価格データを表示するさまざまなURLからHTMLをWebスクレープする必要があります。私はすでに確認するURLの事前にアセンブルされたリストを持っており、現在、作業スクリプトを持っています。問題は、処理時間があまり長くないことです(URLあたり1.5〜2秒)。プロセスの高速化Python

私は、速度を向上させるオプションとして、クロムドライバーとヘッドレスランニングでセレンを使用しています。大きな問題(なぜ私がセレンを使用しているのか)は、私が使っているサイトが厳密なログインセキュリティ(CSRFトークンとCaptchaパズル)を持っているということです。ライブの価格を表示するには、サイトにログインする必要があります。

私はログインを回避しようとする意欲がありません。代わりに、私がやっていることは、手動で一度ログインしてクッキーを保存して、先頭のクロムウィンドウを読み込むことです。さまざまな量のヘッドレスクロムウィンドウを開始し、クッキーをロードするので、私はすでにログインしています。これはうまくいきますが、私はurllibやヘッドレスブラウザでこれを実装したいと思っています。

手動でログインして何らかの形で別のヘッドレスブラウザにクッキーを読み込む方法がある場合は、それが理想的です。

ありがとうございます。

答えて

0

通常のスケーリングをお探しの場合は、Beautifulsoupのようなライブラリに行くことができます。それ以外の場合はscrapyフレームワークに行くことができます。しかし私が理解していることから、Beautifulsoupはあなたの必要条件を満たすでしょう。

+0

ありがとうございます。私は、ヘッドブラウザを使用して手動でログインする必要があります – JCodder