私はNodejsエクスプレスサーバを開発しました。私はクローラトラフィックについて懸念しています....誰かが私のサーバにリクエストを送信してから、それを避けてください。私のNodejsサーバでクローラトラフィックを検出する方法
ありがとうございます。
私はNodejsエクスプレスサーバを開発しました。私はクローラトラフィックについて懸念しています....誰かが私のサーバにリクエストを送信してから、それを避けてください。私のNodejsサーバでクローラトラフィックを検出する方法
ありがとうございます。
あなたが本当にここで尋ねていることを伝えるのは難しいです。
あなたが本当に求めているのは、クローラがサイトのリクエストをしたときにそのクローラを特定する方法である場合、すべての正常に動作しているクローラ(Googleのクローラなど)がリクエスト内で自分を識別します。 Googleのクローラがどのようにそれを行うのかを見ることができますhere。
あなたが本当に求めているのは、一度にあまりにも多くのトラフィックを取得し、そのトラフィックの一部がクローラからのものである場合、どのようにサーバーを守ることができるのでしょうか?それは非常に広い質問です。特定のサーバーインスタンスに関する情報、現在サポートされている規模など...一般的なトピックに関する記事の1つがWeb Crawlers: Love the Good, but Kill the Bad and the Uglyです。
Googleでは、サイトの最大クロールレートを実際に知ることができます。この設定は90日間有効ですが、クローラが見たいサイトに最初にたくさんの新しいコンテンツを追加すると最も効果的です。手順については、このGoogleのページ"Change Googlebot crawl rate"を参照してください。
注:robots.txtファイルを実装して、サイトのどの部分を回避するかをクローラーに指示することもできます。