ウェブクロールに関する記事を読んで、クロールの基本を学びました。それらによると、Webクローラは他のWebページで取得したURLを使用してツリー(メッシュ)を実際に使用します。クローラはどのようにして最大限のカバレッジを確保していますか?
この場合、クローラはどのように最大限のカバレッジを保証しますか?明らかに、他のページ/サイトからの参照リンクを持たない多くのサイトが存在する可能性があります。検索エンジンは、クロールや手動登録以外のメカニズムに従っていますか? (ドメインレジストリから情報を取得する)
クロールにのみ基づいている場合は、クロールを開始するために適切な「ルート」サイトを選択する必要がありますか? (結果を予測する方法はありません。リファレンスリンクのない100サイトを選択した場合、エンジンは100サイト+その内側のページで表示されます)
のようなソーシャルブックマークサイトと同じようにopen directory projectのような汎用的なWebディレクトリの任意の種類は、理想的な候補になりますhttp://www.sitemaps.org/ –
をご覧ください。サイトマップは、特定のサイトの内側ページを走査する際に便利です。しかし、私たちはどのようにサイト "ホーム"を知ってサイトマップを取得するには? –
常にルートページにあり、 'sitemap.xml'という名前にしてください: http://www.example.com/sitemap。xml –