2009-04-02 16 views
5

私はtorrentz.comのような検索エンジンの背後にある技術に興味があります。私が見ることができたから、それはどんなトレントファイルもホストせず、むしろあなたを他のサーバーに接続します。トレントファイルインデクサーをどのように構築しますか?

  • 検索キーワードに一致する可能性のあるタイトルのリストが表示されます。
  • これらのいずれかを選択すると、対応するトレントファイルをホストする潜在的なサーバーの別のリストが表示されます。私は特にに興味がどのような

はすべてそのコンテンツ収集やインデックスの背後にある戦略です:

彼らはデータを集計、その後集めるにはどうすればよいですか?
これらのサーバーのそれぞれがインデックス作成のためにコンテンツを提出するサブミッションベースのサービスですか?
クロールアルゴリズムですか?もしそうなら、どうやってpiratebay.orgのようなサイトのクロールを開始することができますか?
他のサーバーのデータベースにアクセスできますか?

ビットトレントプロトコルについての私の知識と理解はあまり精巧ではありませんが、私がオンラインで見つけたドキュメンテーションは、トラッカーサービスを構築するプロセスに向けて私に指摘しました。洞察力と推奨される読書資料が評価されます。

答えて

6

RSSフィードのインデックスを作成し、そこからデータを収集します。次のステップは、ポータル(Mininova、tpbなど)のページを索引付けすることですが、サーバーから要求される膨大な量のデータを誘発するので、禁止することができます(iベース)彼らがそれについてあまりにも幸せだとは思わない)..

それは私が彼らが他のサーバーのデータベースにアクセスするのではなく、むしろクロール+ rssだと思った。

もう1つのことは、誰かがqyourデータベースにないアイテムのクエリを作成すると、メインbtポータルのクエリを作成し、その結果をデータベースにキャッシュして表示することです結果。次に、別のユーザーが同じクエリを実行した場合(これはかなり一般的なシナリオです)、キャッシュされたデータとrssの新しいデータを表示できます。

関連する問題