Googleの検索結果でHTMLを取得しようとしています。例えばGETリクエストを送信すると:私はカールとそれを使用するか、Googleで「ソースを表示」でソースを取得しようとしているときに、ブラウザにすべてが、OKであればGoogle検索へのリクエスト
https://www.google.ru/?q=1111
しかし、唯一のいくつかのJavascriptがありますコード、検索結果はありません。それは保護のいくつかのタイプですか?私に何ができる?
Googleの検索結果でHTMLを取得しようとしています。例えばGETリクエストを送信すると:私はカールとそれを使用するか、Googleで「ソースを表示」でソースを取得しようとしているときに、ブラウザにすべてが、OKであればGoogle検索へのリクエスト
https://www.google.ru/?q=1111
しかし、唯一のいくつかのJavascriptがありますコード、検索結果はありません。それは保護のいくつかのタイプですか?私に何ができる?
ブラウザにロードしてから、JavaScriptを使用して結果をスクラップできます。
Google APIを使用することはできますが、1日に100回以上リクエストすると支払いが必要なようです。
これで、GETリクエストを行うにはGoogle Search APIを使用する必要があります。
他のすべての方法はブロックされています。
答えにもう少しソースを追加するには、正しいものではなく、問題に反応しないようにします。
まず、DoSのようなサービスを害しない限り、Googleを掻き集めることは完全に合法です。
また、メソッドはブロックされていません。単純ではありません。
速度は方法によって異なりますが、それほど遅くする必要はありません。
必要に応じて、1万分のキーワードページを削り取ることができます。
あなたがここで話題に良い答えを見つけるでしょう:Is it ok to scrape data from Google results?
をカールしてあなたの問題は、保護から実際に来て、Googleが自動化されたアクセスを許可していません、それは検出アルゴリズムの非常に洗練されたセットを持っています。
これは、単純なユーザーエージェントのチェック(これはあなたを直接止めたものです)から、異常なクエリや関連するクエリを検出しようとする人工知能にまで及んでいます。
あなたの方法はかなり速くブロックされます。 Googleは、検索を続行するには解決しなければならないcaptcha付きの "ロボットではないことを確認します..."という画面を表示します。 –
@BrianSmith、はい、もちろんです。しかし、すべてのページに1回だけ。 – UndeadDragon
1)それは違法ではありません、2)それは非常に遅くする必要はありません、あなたの "唯一の方法"は可能な最悪の方法です.. 3)キャプチャのページは、 "一度"ではなく、最終的に彼のプロバイダの長期的なブロックで2番目の最悪のケースでは、彼のIPの短いまたはさらに長いブロックが、もうcaptchaを求めない。 – John