2017-01-23 9 views
-1

JavaScriptベースのウェブサイトがあります。具体的には、<a>タグはありません。コンテンツはDOMツリーに動的に挿入され、いくつかのボタンがクリックされた後、javascriptを使用して更新を表すURLが変更されます。ウェブクローラがrobots.txt URLまたはタグに従っていますか

だから、私の質問は、私は私のrobots.txtでのリンクのリストを持っている場合は、許可ウェブクローラ(グーグル、ビング、など)を直接robots.txt内のリンクにアクセスする、またはそれらが提示aリンクをたどります、ですダウンロードしたウェブサイトはrobots.txtに許可されていますか?

2番目のケースでは、ダウンロードされた/サイトとrobots.txtファイルの両方にURLが表示されないため、WebクローラーはこれらのURLを見つけることができません。

+0

'robots.txt'は、クローラにクロールを許可されていないことを伝えるだけで、アクセスするリンクのリストを含んでいません。 – Barmar

+0

@Barmar: "次のDisallowディレクティブに対抗できるAllowディレクティブをサポートするメジャークローラーがあります。" (ウィキペディアからの引用)。私はこれらの大きなウェブクローラー(Bing/Google、両方とも 'Allow'ディレクティブを読む)にのみ興味があります。 –

+0

いずれにせよ、これは単なる許可リストであり、クロールする場所のリストではありません。彼らはリンクをたどって行く場所を得る。 – Barmar

答えて

1

Sitemapsを使用すると、クローラにURLのリストを与えることができます。 @Barmarで述べたように、robots.txtの目的は少し異なります。

関連する問題