2016-08-30 7 views
-3

私は、次のコマンドを使用して、LinkedInのからダウンロード1ページにしようとすると:ブラウザを使用して、ユーザーがLinkedInのにアクセスすることができますのでLinkedinはユーザーリクエストとクローラリクエストの違いをどのようにしますか?

HTTP/1.1 200 Connection established 

HTTP/1.1 999 Request denied 
Date: Tue, 30 Aug 2016 08:19:35 GMT 
X-Li-Pop: prod-tln1-hybla 
Content-Length: 1629 
Content-Type: text/html 

​​

私は999ステータスコードを取得ページの場合、はロボットとユーザーの間で違いを生むことを意味します

そうでないユーザーがrobots.txtの最後に次の行のためにLinkedInのページにアクセスすることを許可されません。

User-agent: * 
Disallow:/

ので、LinkedInのは、ブラウザや他の人からの要求の違いを作ることができます。 どのようにそうするのですか?

+0

あなたは多くの詳細を見つけることができます[ここ](https://techcrunch.com/2016/08/15/) linkedin-sues-scrapers /)である。 –

+0

面白いですが、私の質問は***どのように彼らはそうしているのですか*** ***なぜ彼らはそれをしますか? – Gabsn

+0

記事を読むと、 FUSE、Quicksand、Sentinelと呼ばれるこれらのツールは、LinkedInユーザーのWebトラフィックを監視し、ユーザーが見ることができる他のプロファイルの数や、ユーザーがそれらのプロファイルを表示する速度を制限しています" –

答えて

-1

具体的なケースについては、ユーザーエージェントを指定しなかった可能性があります。この情報がない場合には、サーバが接続を拒否することができます

あなたはそれがユーザーエージェントのようなあなたのウェブサイトにヘッダを送信要求、画面解像度、クッキー、言語、エンコーディングを行う、など

...

ウェブサイトに接続するときに特定のウェブサイトがどの最新のブラウザのネットワークタブをチェックしているかを確認する。

リンクされている別のことは、Webページをリクエストするときに、他の要素のajaxリクエストも作成されているかどうかを確認することです。ほとんどのscrappersがjavascriptを解釈できないため、ブラウザや潜在的なボットによってリクエストが行われたかどうかを簡単に識別できます。

それ以降は、ユーザーの行動に関するものです。直接アクセスできないページには、ナビゲートするだけでアクセスし、ログインしたIP /アカウントのパターン動作を特定したり、ユーザーのネットワークをチェックすることさえできます。アカウントのネットワークが大きくなり、ユーザーがそのアカウントを使用してスクレイピングを行う可能性が低くなります。

PS。それは本当に本当に実際に実際にあなたがすべてのメカニズムを避けることができたとしても、linkedinを擦ってしまう悪い考え

+0

ありがとう!実際、スクラップしようとするページは公開企業のページであり、プロフィールのページではないので、ログインする必要はありません。 – Gabsn

+0

十分なパブリックページをリクエストすると、最終的にはログインするよう強制されます –

関連する問題