2009-06-04 7 views
4

ウェブクロールに関する記事を読んで、クロールの基本を学びました。それらによると、Webクローラは他のWebページで取得したURLを使用してツリー(メッシュ)を実際に使用します。クローラはどのようにして最大限のカバレッジを確保していますか?

この場合、クローラはどのように最大限のカバレッジを保証しますか?明らかに、他のページ/サイトからの参照リンクを持たない多くのサイトが存在する可能性があります。検索エンジンは、クロールや手動登録以外のメカニズムに従っていますか? (ドメインレジストリから情報を取得する)

クロールにのみ基づいている場合は、クロールを開始するために適切な「ルート」サイトを選択する必要がありますか? (結果を予測する方法はありません。リファレンスリンクのない100サイトを選択した場合、エンジンは100サイト+その内側のページで表示されます)

答えて

3

明らか 他のページ/サイトからの紹介リンクを持っていないサイト の多くがあるかもしれません。

私はこれが本当に大きな問題ではないと思います。

は、検索エンジンは と手動登録をクロール以外の任意の 他のメカニズムに従っていますか? (つまり、ドメインレジストリからの 情報の取得)

私が聞いたことはありません。

彼らはただクロールに基づいている場合は、 はどのように我々がクロールを開始する 「ルート」のサイトの良いセットを選択する必要がありますか?

robots.txtのような単純な標準を用いて、溶液の場合のDiggやdel.icio.us

1

クローラを助ける方法の1つは「サイトマップ」です。サイトマップは、基本的にウェブサイトのコンテンツをリストするファイルであるため、特にサイトに動的コンテンツがある場合は、クローラがどこをナビゲートするかを知ることができます。より正確なサイトマップを使用すると、クローラの精度が大幅に向上します。

http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=40318

+0

のようなソーシャルブックマークサイトと同じようにopen directory projectのような汎用的なWebディレクトリの任意の種類は、理想的な候補になりますhttp://www.sitemaps.org/ –

+0

をご覧ください。サイトマップは、特定のサイトの内側ページを走査する際に便利です。しかし、私たちはどのようにサイト "ホーム"を知ってサイトマップを取得するには? –

+0

常にルートページにあり、 'sitemap.xml'という名前にしてください: http://www.example.com/sitemap。xml –

1

は、クローラーが既にクロールまたは手動で追加されていない他のサイトで呼ばないサイトを見つけることができるようになる魔法のメカニズムがありません。ここで

は、Googleマップ上のいくつかの情報ですクローラに

クローラは、手動で登録された、したがって事前定義されたルートのセットから始まるリンクのグラフをたどるだけです。グラフ外のものはすべてクローラに到達できません。このコンテンツを見つける手段はありません。

+0

"グラフ外のものはすべてクローラに到達できません。このコンテンツを見つける手段はありません。"優れたサイトはまだありますが、インデックスサイトからの紹介や紹介はありません。 –

+0

インデックスサイトからの照会のない優れたサイトは、優れたサイトではありません。 – Emre

関連する問題