セレンの最大の問題は、ブラウザを再オープンする時間が長いことです(数分おきます)。私もプロキシを使用し、Pythonのスレッドを使って複数のブラウザを実行しています - 新しいジョブが来ると数分ごとに開始/停止します。Python/Celery/Seleniumの連続タスク(ブラウザの再オープンは避けてください)
セロリの使用を開始して(アウト・オブ・ボックス・マルチコア・サポート)、セレン・ブラウザのオープン・インスタンスを正確に取得するのを待って、ワーカー(異なるプロキシ/ブラウザ)を無期限に実行することを考えていましたスクラップするURL - redisのようなものを介してフィードします。
このような連続作業をセロリで実行するのは良い考えですか?これを行うには良い方法はありますか?