この質問を再度投稿してください。私はクローラで始まっていますが、インデックスパートにこだわっています。リンクを効率的かつ迅速にインデックスしたいと思います。私はデータベースにリンクを挿入していますが、ユニークなリンクを確認することはオーバーヘッドですので、誰も私にこのより良い方法を提案することができます。私はどのようにしてJavaを使用してWebクローラを構築するのですか
こんにちは私は、全体のウェブサイトをクロールし、「ジヌー」に非常によく似it.Something内のすべてのリンクを取得するウェブサイトのクローラーを構築しようとしています。しかし、私はそれのために行く方法を理解することができません。私は私の心の中に1つのアルゴリズムを持っていますが、それは非常に遅いでしょう、それは以下の言及です。
- ホームページのソースを入手してください。
- ソースからすべてのアンカータグを取得します。
- アンカータグのURLを取得します。
- URL が同じサイトまたは外部の サイトに属していることを確認してください。
- 上記のプロセスで見つかった のURLを取得し、確認済みのURLに とマークします。
- 未記入のURLがなくなるまでこのプロセスを繰り返します。
これは私が思い付いたものの大まかな考えです。しかし、それは非常に遅くなります。だから、誰かが私にいくつかの他のアプローチを提案したり、このアルゴリズムを強化することができます。
よろしく、 Sagar。