パイソン・スクラピーを使用してクロールを開始する前にtorをチェックしたいと思います。私はLinux上でpolipo/tor/scrapyを使用しています。スクール実行前にチェック・トロー接続が確立されている
このセットアップでは、正しくトロをクロールで使用しています。トルーパーを使った治療がmyspiderのthis pageを正しくクロールするかどうかを確認する方法です。
class mySpider(scrapy.Spider):
def start_requests(self):
yield Request('https://check.torproject.org/', self.parse)
def parse(self, response):
logging.info("Check tor page:" + str(response.css('.content h1::text')))
しかし、私はそれを行うより良い/クリーンな方法があるかもしれないと思う。私はcheck tor service statusまたはcheck ip addressを知ることができますが、実際に接続が正しく確立されているかどうかを実際に確認したいと思います。
返信ありがとう、私はちょうどツイストがtxtorconを使用していることに気付いたので、私はscrapがtxtorconを使用していると推測するので、代わりにtxtorconでgetinfoを学ぶべきです。 – PHA
[torcontrolprotocol.py] //github.com/meejah/txtorcon/blob/master/txtorcon/torcontrolprotocol.py#L384)。それを使用することもできますが、そのような単純なコマンドに特別なものは何も付いていない非常に単純なコマンドベースのプロトコルです。しかし、特定の結果を解析し、メッセージの終わりを識別する方法を知ることで、より複雑になります。 – drew010
私が正しく理解していれば、Torがしばらく使用されていなければ、 'dormant'と' circuit-established'はそれぞれ1と0を返します。 (1)これらのコマンドはTorを起動しますか? (2)それを目覚めさせる最良の方法は何ですか? – nopara73