2016-04-19 9 views
0

私はRubyに、検索クエリを使って検索エンジンを検索するスクリプトを書いています。私は、このスクリプトをユーザーが使用するときは匿名のままにしておきたい。これまでのところ、スクリプトはユーザーエージェントを変更し、ランダムなヘッダーを使用します。匿名のままにしておくべき特定の方法や特定の検索エンジンはありますか?検索エンジンをクロールするための最も匿名の方法

私はDuckDuckGoが良いスタートであることを見てきました。これは明らかにデータを記録していないTorを使用しているため、APIを持っていますが、複数の検索エンジンを使用したいのですが?たとえば、複数のスレッドを使用して複数の検索エンジンをクロールし、すべてのエンジンで匿名のままにします。

どうすればこの問題を解決できますか?

私はRubyのプロキシ機能について知っていますが、私はそれを使用する方法が完全にはわかりません。別の問題です。

答えて

2

インターネットで匿名になりたい場合は、最良の選択肢の1つです。 https://github.com/astro/socksify-ruby

そして、匿名で任意のWebサイトにアクセスします:

をあなたは次に

tor --SOCKSPort 9050 

あなたがこの宝石を使用することができますTorネットワークに接続する必要が任意のウェブサイト

まずに自分自身とのアクセスでそれを使用することができます

require 'socksify/http' 
require 'net/http' 
Net::HTTP.SOCKSProxy('127.0.0.1', 9050).start('some.website.com', 80) do |http| 
    http.get('/') 
end 

セキュリティ上の理由から匿名にする必要がある場合はtorのマニュアルをお読みください。必要な場合は完全かつ重要です正しく使用してください。クロール中に合理的で、

対象のウェブサイトが簡単にトラフィックがTorネットワークから来ている知ることができます(ただし、トラフィックがどこから来たことは知られていないだろう)、あなたがウェブマスターがTORをブロックしたくない...

+0

私は 'tor --SOCKS'部分について混乱しています、それは何ですか?申し訳ありませんが、私はプロキシとその仕組みについてほとんど知りません – 13aal

+0

ポート9050でリッスンするように指示します。Net :: HTTP.SOCKSProxyでこのポートに接続します。あなたのHTTPリクエストはプロキシ経由で発行されます – ThomasSevestre

+0

基本的にTorは私のローカルIPをポート9050経由で接続していますか? – 13aal

関連する問題