2

SeleniumのChromeDriverCrawljaxを使用して、URLジェネレータから受信した一連のランダムなWebサイトをクロールして、取得したDOM状態の静的コード分析を実行したいとします。自動WebクローリングにSelenium WebDriverを使用すると危険ですか?

クロールを行っているマシンでは、これは危険なことはありますか?

ランダムに生成されたサイトの1つが悪質で、ChromeDriver(新しいDOM状態を取得するために使用される)からJavaScriptを実行すると、テストを実行しているマシンが何らかの形で感染することが懸念されます。私はある種のサンドボックス環境でこれを実行するべきですか?

--edit--

それが問題にした場合、クローラは完全にJavaで実装されています。

+1

アンブレイカブルであるとは考えていないChromeはサンドボックス環境内のすべてを実行します。 Chromeのアドオンをインストールしていない場合は、大きな問題ではありません。 しかし、多くのサイトではトラッカーを使用しており、トラッカーは閲覧している共通サイトを追跡できます。したがって、すべてのドメインに対して個別のプロファイルを作成することもできます。しかし、あなたはクロールしているだけでプライベートなクッキーを保存していないので、別のドメインに同じインスタンスを再利用することも問題ではありません。 –

+0

@ TarunLalwaniありがとうございました。 –

答えて

1

かんたん回答、いいえ。クッキーを恐れていても、あなたがいても、あなたのマシンはそうではありません。

+0

本質的に、すべてのサイトで同じChromeDriverインスタンスを使用していると、他のサイトのクローラの活動を知らせるクッキーが残っている可能性があります。そうだとしたら、それほど恐ろしいことではない。私は、ChromeDriverのインスタンスが一旦消えると、クッキーが削除されることも想定していますが、これは確認する必要があると私は推測します。 –

0

それはあなたがnetwork.Recentlyでno絶対安全な存在であることを認識すべきで、それは非常に安全だと言うのは難しい、クロムRCEが出してきた、詳細: SSD Advisory – Chrome Turbofan Remote Code Execution – SecuriTeam Blogs

多分これはセレンのChromeDriverに行うことができます

しかし、あなたのシステムでは、ファイアウォールモードをホワイトリストに変更したり、Pythonスクリプトとセレンだけでポート80,443のインターネットにアクセスできるようにすることができます。

あなたのシステムがRCEによってpwnedされても、悪意のあるコードはあなたにpythonプロセスを挿入しない限り、インターネットにアクセスすることはできません(ブラウザRCEのjsスクリプトでは非常に難しいと思います)。

別のオプション:PythonスクリプトがWebページをクロールする(他のプロセスを開始するなど)、または他のファイルを読み書きする場合、HIPSをインストールすると、そのことを知り、何をするかを決定します。

私の考えでは、VMでクロールを行い、ファイアウォール(WindowsファイアウォールまたはLinux iptables)で強制し、Windowsで役に立たないサービスをシャットダウンします。これで十分です。一言で

が、それはセキュリティと利便性のバランスを見つけることdiffcultだし、あなたのシステムが

+0

あなたの答え@ElizabethAnneに感謝します。私はあなたが投稿したリンクを見て、そして、 "次のPoCは、サンドボックスクロムバージョン59を攻撃するときにcalcを実行します。その声明は、サンドボックス版のChromeがこのような脆弱性の影響を受けないことを暗示していると思いますか?サンドボックスモードでChromeを使用している場合は、VMでクローラを実行してポートの使用を制限するのは冗長ですか? –

関連する問題