私は研究調査の一環として、多数の学術論文の情報を入手しようとしています。記事の数は何千ものオーダーです。 Google ScholarにはAPIがないので、私は学者をスクラップ/クロールしようとしています。今私は今、これは技術的にEULAに反対していますが、私はこれについて非常に丁寧で合理的であるように努めています。私は、Googleがトラフィックを合理的な制限内に抑えるためにボットを許可していないことを理解しています。私は、各リクエストの間に1秒間〜500回のリクエストのテストバッチを開始しました。最初の100回のリクエストの後にブロックされました。ほとんどのポーズがすべての今秒のオーダーであるが、そのよう(対数正規分布ポーズを作るGoogle Scholarをクロールする
- 〜20代にポーズを拡張し、それらにいくつかのランダムノイズを加える:私はを含む複数の他の戦略を試してみました
- 要求のブロック(〜100)の間に長いポーズ(数時間)を実行しています。
この時点で私のスクリプトは、人間が行うことに比べてかなりのトラフィックを追加しているとは思えません。しかし、私はいつも100〜200回のリクエストの後にブロックされます。誰もがこれを克服するための良い戦略を知っていますか?(自動化されていれば数週間かかるかどうか気にしません)また、誰かが直接Googleとの取引経験があり、同様のこと(研究など)を行う許可を求めていますか?それを書いて、私がやろうとしていることや、どうやって説明し、プロジェクトの許可を得ることができるかどうかを見てみる価値はありますか?そして私はそれらに連絡するためにどのように行くでしょうか?ありがとう!
マイクロソフトの学術検索はGoogleとどのように肩を並べていますか? –
[これは議論に追加されます](https://www.quora.com/Why-doesnt-Google-have-an-official-API-for-Google-Scholar) –
あなたの 'あなたのリクエストヘッダー内の「エージェント」を正しく設定できません。正しく設定されていないリクエストは、ボットとして簡単に検出されます。 :) –