2016-06-15 9 views
-6

最近、私はリクエストとBeautifulSoupを使ってかなり単純なスクレーパーを書いた。スクレーパーは一日まで完璧に動作し、私はそれを走らせて、 "Connection reset by peer、Error 54"を受け取りました。私が思っているものではないエラー54を回避することについて複数の質問があるにもかかわらず、私はスクレーパーがブロックされていると信じていますが、私は通常のブラウザでウェブサイトにアクセスできます。

私の特定のIPまたはコンピュータがブロックされているかどうかをテストするために、別のマシンとIPアドレスでコードを実行して正常に動作しました。ただし、古いマシンでも、通常のブラウザでサイトに完全にアクセスできます。

私のIPを完全にブロックすることなくウェブサイトがこれをやり遂げることができたかどうか、誰かが将来これを避けるためのヒントを持っているのだろうかと思います。

+3

このサイトは特定のプログラミングに関する質問であり、ネットワーキングのセキュリティ対策を回避するためのヒントや不正なネットワークスキャンのコミットに役立つものであるため、 –

+0

サイトとは何ですか?あなたは自分のトスを読んだことがありますか? –

+0

https://www.google.com/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#q=scraping%20without%20getting%20blocked – MatthewMartin

答えて

2

私はいくつかのストレートフォワードおよびいくつかの不可解な、あなたの要求に関するもののすべての方法を調べることによって、両方の方法のウェブサイトが完全に私のIPをブロックせずにこれを行うことができたと...

を疑問に思って。ストレートフォワード項目には、ユーザーエージェントヘッダー、Cookie、動的URLの正しいスペルが含まれます。

あなたのIPアドレス、あなたの要求のタイミング、関連する要求の頻度、他のヘッダーの内容が記載されています。

...これを避けるためのヒントがある場合は、

はい。問題のウェブサイトの所有者に連絡し、彼らが行っている制限に協力してください。 Webサイトを使用するためのライセンス条項を調べます(一般公衆利用許諾契約の場合は、「利用規約」と呼ばれることが多い)。それらの用語の中で排他的に活動することを確認してください。

ウェブサイトのデータがAPI経由で利用可能で、その使用がAPIの使用条件に該当する場合は、画面スクレイピングの代わりに使用します。データの形式はより一貫し、コードはより速く実行され、Webサイトの所有者にとって負担(または脅威)が少なくなります。

+0

私の質問に答える時間をとってくれてありがとうRob。私はそれがむしろ一般的であることを知っています、私は縄を今すぐ学んでいます。私はあなたのポイントを与えるためにあなたの答えを受け入れ、それが私が始めるのを助ける原因になります。再度、感謝します! – user6326823

関連する問題