私はDistil Networksで保護されているWebサイト( )を掻き取ろうとしていました。chrome-remote-interfaceを使用したNode.jsの掻き取り
私はいくつかの検索を行いました。私の結論は、あなたがJavascriptを使ってSeleniumを使っていることをサイトが検出できるということです。私はchrome-remote-interface
で戦利品を取った、それは私が欲しいものだが、それから私は立ち往生した。
私は何をしたいのは、次の手順を自動化することです:
- Chromeを開き、インスタンス
- 移動ページへ
- を実行し、いくつかのjavascript
- データを収集し、 をファイルに保存
- 手順2〜4を繰り返します。
私はANによるデバッグ用クロームのインスタンスを開きます。
google-chrome --remote-debugging-port=9222
そして、私は、ノード上でコンソールを開くことができます。
chrome-remote-interface -t 127.0.0.1 -p 9222 inspect -r
私はまたのような
Page.navigate({url:"https://google.com"})
Runtime.evaluate({expression:"1+1"})
しかし、のような簡単なスクリプトを実行することができますNode.jsにDOMを直接取得することはできませんが、Chrome Developer Toolsコンソールで行うことができます。基本的に私が望むのは、Chrome開発ツールコンソールでできることのような、ノード上のスクリプトを実行することです。
また、掻き取りのためのchrome-remote-interface
に関する十分な文書はありません。そのための良いリンクはありますか?