2008-09-03 14 views
11

検索エンジンのボットは何を出発点として使用しますか?それはDNSルックアップですか、それともよく知っているサイトの固定リストから始まっていますか?推測や提案はありますか?検索エンジンはどこからクロールを開始しますか?

+0

この質問はプログラミングに関するものではないので、話題にはならないようです。ヘルプセンターの[ここではどのトピックを参照できますか](http://stackoverflow.com/help/on-topic)を参照してください。おそらく、[Web Apps Stack Exchange](http://webapps.stackexchange.com/)がより良い場所になるだろう。 – jww

答えて

8

あなたの質問は二つの方法で解釈することができます。検索エンジンは、一般的に自分からクロールを開始、またはそれらが特定のサイトをクロールを開始どこどこ

を求めていますか?

大きなプレーヤーの仕組みはわかりません。独自の検索エンジンを作ろうとすれば、おそらく人気のあるポータルサイトを使って検索エンジンを設定するだろう。 DMOZ.orgは人気の高い出発点のようです。ビッグプレーヤーは私たちよりもはるかに多くのデータを持っているので、おそらくさまざまな場所からクロールを開始します。

SEが特定のサイトのクロールを開始する場所を尋ねる場合、おそらくあなたのページのうち最も人気のあるページと関係があります。多くの他のサイトがリンクしている1つのスーパーポピュラーなページがあれば、他のサイトからのエントリポイントが非常に多いため、SEのスタートページが表示されます。

私はSEOなど何でもないことに注意してください。私はちょうど私が取り組んでいるプロジェクトのためにしばらくの間、ボットとSEのトラフィックを勉強しました。

4

site submission formsを使用して検索エンジンにサイトを送信することができます。これにより、あなたのシステムにアクセスできます。あなたが実際に言うことは不可能な後に実際にクロールするとき - 経験から、それは通常、最初のクロール(ホームページ、いくつかの他のページがそこから1リンク深い)のために約1週間かかります。明確な意味論的リンク構造を使用してクロールおよび索引付けされるページの数を増やして、sitemapを提出することができます。これらを使用すると、すべてのページをリストし、相互に重み付けすることができます。サイトの各部分は他の部分と相対的です。

サイトが他のクロールされたウェブサイトからリンクされている場合は、リンクされたページからクロールされ、最終的に他のサイトにも広がります。これは長い時間がかかり、リンクサイトのクロールの頻度に依存するため、URLの提出はGoogleがあなたのことを知る最も簡単な方法です!

私は十分に高く推奨できないツールの1つがGoogle Webmaster Toolです。これは、あなたがクロールされた頻度、googlebotが遭遇したエラー(壊れたリンクなど)、その他の便利なツールのホストがそこにあるのを見ることを可能にします。

2

原則として、何もしません。誰かが自分のウェブサイトを含めるよう明示した場合にのみ、このサイトのクロールを開始し、そのサイトのリンクを使用してさらに検索することができます。

しかし、実際には、検索エンジンの作成者は、彼らが考えることができる任意のサイトを配置します。たとえば、自分のブログや自分のブックマークにあるサイトなどです。

理論上、ランダムなアドレスを選んでそこにウェブサイトがあるかどうかを知ることもできます。私は誰もこれをやっているとは思わない。上記の方法はうまく動作し、検索エンジンをブートストラップするために余分なコーディングを必要としません。

関連する問題