Linkedinはユーザーリクエストとクローラリクエストの違いをどのようにしますか？

-3

私は、次のコマンドを使用して、LinkedInのからダウンロード1ページにしようとすると：ブラウザを使用して、ユーザーがLinkedInのにアクセスすることができますのでLinkedinはユーザーリクエストとクローラリクエストの違いをどのようにしますか？

HTTP/1.1 200 Connection established HTTP/1.1 999 Request denied Date: Tue, 30 Aug 2016 08:19:35 GMT X-Li-Pop: prod-tln1-hybla Content-Length: 1629 Content-Type: text/html

：

私は999ステータスコードを取得ページの場合、はロボットとユーザーの間で違いを生むことを意味します。

そうでないユーザーがrobots.txtの最後に次の行のためにLinkedInのページにアクセスすることを許可されません。

User-agent: * Disallow:/

ので、LinkedInのは、ブラウザや他の人からの要求の違いを作ることができます。 どのようにそうするのですか？

出典

2016-08-30 Gabsn

あなたは多くの詳細を見つけることができます[ここ]（https://techcrunch.com/2016/08/15/） linkedin-sues-scrapers /）である。 –

面白いですが、私の質問は***どのように彼らはそうしているのですか*** ***なぜ彼らはそれをしますか？ – Gabsn

記事を読むと、 FUSE、Quicksand、Sentinelと呼ばれるこれらのツールは、LinkedInユーザーのWebトラフィックを監視し、ユーザーが見ることができる他のプロファイルの数や、ユーザーがそれらのプロファイルを表示する速度を制限しています" –

-1

具体的なケースについては、ユーザーエージェントを指定しなかった可能性があります。この情報がない場合には、サーバが接続を拒否することができます

あなたはそれがユーザーエージェントのようなあなたのウェブサイトにヘッダを送信要求、画面解像度、クッキー、言語、エンコーディングを行う、など

...

ウェブサイトに接続するときに特定のウェブサイトがどの最新のブラウザのネットワークタブをチェックしているかを確認する。

リンクされている別のことは、Webページをリクエストするときに、他の要素のajaxリクエストも作成されているかどうかを確認することです。ほとんどのscrappersがjavascriptを解釈できないため、ブラウザや潜在的なボットによってリクエストが行われたかどうかを簡単に識別できます。

それ以降は、ユーザーの行動に関するものです。直接アクセスできないページには、ナビゲートするだけでアクセスし、ログインしたIP /アカウントのパターン動作を特定したり、ユーザーのネットワークをチェックすることさえできます。アカウントのネットワークが大きくなり、ユーザーがそのアカウントを使用してスクレイピングを行う可能性が低くなります。

PS。それは本当に本当に実際に実際にあなたがすべてのメカニズムを避けることができたとしても、linkedinを擦ってしまう悪い考え

出典

2016-08-30 10:22:42

ありがとう！実際、スクラップしようとするページは公開企業のページであり、プロフィールのページではないので、ログインする必要はありません。 – Gabsn

十分なパブリックページをリクエストすると、最終的にはログインするよう強制されます –

Linkedinはユーザーリクエストとクローラリクエストの違いをどのようにしますか？

答えて

関連する問題