-1

SSOでのログインが必要なWebサイトを削りたいと思っています。私の問題は、サイトが認証にSSOを使用していることです。今、私はPythonでSelenium Webdriverのソリューションを見つけました。PHPで同じことをする可能性があるのだろうか?SSOの代わりにSelenium Webdriverの代わりに

はたぶん誰かが既に同じ問題を抱えていたし、私を助けることができる...

+0

1)Pythonを使用します。 2)Google for "selenium webdriver PHP"。 3)この質問のプログラミングの問題はどこにありますか?コードはありません。 –

答えて

0

PhantomJSは、ヘッドレスのWebkitあるとChromeはすぐにヘッドレスモードをサポートしています。 (私がPhantomJSに言及したのは、開発者がrecently announcedであっても、プロジェクトの開発を断念したことです)

PhantomJSはスクリーンショットや高度なWebを含むさまざまなタスクを実行するための、言語にとらわれない完全なブラウザスタックベースのソリューションです掻き集める画像、JavaScript、iframeなど、ページ全体がロードされているため、スクラップタスクのパフォーマンスが大幅に低下します。私の意見では、PhantomJSは提示された情報のサブセットのみが考慮されるほとんどのスクレイピングタスクではかなり不合理です有用である。

私のウェブスクレイピングとサーバー間通信のほとんどがPHPで必要なため、私は書いて、積極的に管理しているUltimate Web Scraper Toolkitを使用しています。それは必要なすべてを提供します:コンテンツ検索とデータ抽出ツール。それは私がそれに投げたほとんどすべてのもので、本当に毛深いWord HTML Webサイトを含めて動作します。

SSOの取得は非常に難しい場合があります。これは、CAPTCHAを表示したり、2要素認証(GoogleやFacebookなど)が必要なプロバイダの場合に特に当てはまります。ログインしたら、後で使用できるようにセッションを保存することをおすすめします(ウェブサイトのCookieなど)。そうすれば、1回の認証だけで、リモートホストとの定期的な通信でセッションを維持するだけで済みます。