Torのプロキシを使って治療する

私はTorをUbuntuでセットアップし、それをscrapyフレームワーク内で使うのに助けが必要です。Torのプロキシを使って治療する

私はいくつかの研究を行なったし、このガイドを見つけた：polipo（

DOWNLOADER_MIDDLEWARE = { 
         'spider.middlewares.RetryChangeProxyMiddleware': 600, 
         }

、その後、あなただけのローカルTORプロキシ経由でリクエストを送信したい：

class RetryChangeProxyMiddleware(RetryMiddleware): 

    def _retry(self, request, reason, spider): 
     log.msg('Changing proxy') 
     tn = telnetlib.Telnet('127.0.0.1', 9051) 
     tn.read_until("Escape character is '^]'.", 2) 
     tn.write('AUTHENTICATE "267765"\r\n') 
     tn.read_until("250 OK", 2) 
     tn.write("signal NEWNYM\r\n") 
     tn.read_until("250 OK", 2) 
     tn.write("quit\r\n") 
     tn.close() 
     time.sleep(3) 
     log.msg('Proxy changed') 
     return RetryMiddleware._retry(self, request, reason, spider)

その後、settings.pyにそれを使用します）これは次のようにすることができます：

tsocks scrapy crawl spirder

誰でも確認できますfferent IP？

出典

2012-07-22 DjangoPy

ちょうどあなた自身の資源にしようとすると、サーバーのログをチェックします。そして、所有者から隠すためのブラウザ識別子のリストを設定するか、あなたのクローラのunic idを追加してください。 – nk9

ブラウザのIDのリストを設定するにはどうすればよいですか？ – DjangoPy

ああ...私は病院で働いていなかったので、今は助けを求めています:)。しかし、あなた自身のサイトのテストでは、簡単な解析ログのためにunic idを使用することをお勧めします – nk9

私はこのスニペットを使用していました：http://snipplr.com/view/66992/use-a-random-user-agent-for-each-request/

更新：固定リンク切れ

出典

2012-08-26 09:43:29 DjangoPy

このリンクは壊れているようです。 – Divick

ランダムユーザーエージェントは引き続き追跡できます。 –

Torのプロキシを使って治療する

答えて

関連する問題