私はいつもウェブサイトからの禁止を得ています。私は、治療にdownload_delay = 10を設定しました。fake_user_agentパッケージを試しましたが、これはsiteによると設定はOKです。しかし、再び1/2回走った後、私は禁止されました!誰も私をここで助けることができますか?どのように治療を禁止するのを避けるには
注:scrapy-proxie私もこれを試したいと思いますが、有効にすることはできません。
私はいつもウェブサイトからの禁止を得ています。私は、治療にdownload_delay = 10を設定しました。fake_user_agentパッケージを試しましたが、これはsiteによると設定はOKです。しかし、再び1/2回走った後、私は禁止されました!誰も私をここで助けることができますか?どのように治療を禁止するのを避けるには
注:scrapy-proxie私もこれを試したいと思いますが、有効にすることはできません。
あなたが見てみる必要がありますdocumentationとは何ですか?ここで
サイトのこれらの種類を扱うときに心に留めておくべきいくつかのヒントがあります:
はブラウザ から公知のもののプールからユーザーエージェントを回転させる(取得するために周りのgoogleそれらのリスト)
無効にクッキー( COOKIES_ENABLEDを参照)、いくつかのサイトでは、スポットボットの挙動にクッキーを使用することができますよう
- ダウンロード遅延(2以上)を使用します。 DOWNLOAD_DELAY設定を参照してください。
- 可能な場合は、 サイトが回転するIPプールを直接使用するのではなく、Googleキャッシュを使用してページを取得します。たとえば、無料のTor ProxyMesh
- のような有料サービスは、内部で禁止を回避する高度に配布された ダウンローダを使用しているため、 クリーンページの解析に集中することができます。このようダウンローダーの一例としては、サイトがあなたを禁止されている場合はあなたがしている、あなたはなど、クロール時に何をやっている、クロールしているようにどのようなサイトとして、より多くの情報を提供する必要がありCrawlera
本当にありがとう! Rotating IPに関するチュートリアルやサンプルプロジェクトを教えてもらえますか?私は本当にここにこだわっています! – Mohib
[This](http://pkmishra.github.io/blog/2013/03/18/how-to-run-scrapy-with-TOR-and-multiple-browser-agents-part-1-mac/) 1つはかなり良いようです。それがあなたを助けたら、答えを受け入れることを検討してください。 –
後にプロキシを回転させ、このポストをチェック - web scraping etiquette
ですおそらく好きでないことをしたり、ToSに違反していると判断したりします。これ以上の情報がなければ、なぜあなたが禁止されているのかは誰にも分かりません。 – Rejected
これを処理する正しい方法は、サイトの所有者と話をして尋ねることです。 ToSに違反している場合、彼らはあなたのアクセスを制限する権利があります。私たちがそれについて何もすることはできません。私の考えでは、どちらもあなたを迂回させるべきではありません。 –
私は、この質問をウェブサイトのToSに違反している可能性があるので、トピックをオフトピックとして閉じるよう議決しています。OPはサイトオーナーに最初に話しかけて、自分たちのデータを取得する正しい方法があるかどうかを判断する必要があります。サイト。 –