ウェブクローラがrobots.txt URLまたはタグに従っていますか

-1

JavaScriptベースのウェブサイトがあります。具体的には、<a>タグはありません。コンテンツはDOMツリーに動的に挿入され、いくつかのボタンがクリックされた後、javascriptを使用して更新を表すURLが変更されます。ウェブクローラがrobots.txt URLまたはタグに従っていますか

だから、私の質問は、私は私のrobots.txtでのリンクのリストを持っている場合は、許可ウェブクローラ（グーグル、ビング、など）を直接robots.txt内のリンクにアクセスする、またはそれらが提示aリンクをたどります、ですダウンロードしたウェブサイトはrobots.txtに許可されていますか？

2番目のケースでは、ダウンロードされた/サイトとrobots.txtファイルの両方にURLが表示されないため、WebクローラーはこれらのURLを見つけることができません。

出典

2017-01-23 Peregring-lk

'robots.txt'は、クローラにクロールを許可されていないことを伝えるだけで、アクセスするリンクのリストを含んでいません。 – Barmar

@Barmar： "次のDisallowディレクティブに対抗できるAllowディレクティブをサポートするメジャークローラーがあります。" （ウィキペディアからの引用）。私はこれらの大きなウェブクローラー（Bing/Google、両方とも 'Allow'ディレクティブを読む）にのみ興味があります。 –

いずれにせよ、これは単なる許可リストであり、クロールする場所のリストではありません。彼らはリンクをたどって行く場所を得る。 – Barmar

Sitemapsを使用すると、クローラにURLのリストを与えることができます。 @Barmarで述べたように、robots.txtの目的は少し異なります。

出典

2017-01-23 09:58:56

ウェブクローラがrobots.txt URLまたはタグに従っていますか

答えて

関連する問題