-1
JavaScriptベースのウェブサイトがあります。具体的には、<a>
タグはありません。コンテンツはDOMツリーに動的に挿入され、いくつかのボタンがクリックされた後、javascriptを使用して更新を表すURLが変更されます。ウェブクローラがrobots.txt URLまたはタグに従っていますか
だから、私の質問は、私は私のrobots.txt
でのリンクのリストを持っている場合は、許可ウェブクローラ(グーグル、ビング、など)を直接robots.txt
内のリンクにアクセスする、またはそれらが提示a
リンクをたどります、ですダウンロードしたウェブサイトはrobots.txt
に許可されていますか?
2番目のケースでは、ダウンロードされた/
サイトとrobots.txt
ファイルの両方にURLが表示されないため、WebクローラーはこれらのURLを見つけることができません。
'robots.txt'は、クローラにクロールを許可されていないことを伝えるだけで、アクセスするリンクのリストを含んでいません。 – Barmar
@Barmar: "次のDisallowディレクティブに対抗できるAllowディレクティブをサポートするメジャークローラーがあります。" (ウィキペディアからの引用)。私はこれらの大きなウェブクローラー(Bing/Google、両方とも 'Allow'ディレクティブを読む)にのみ興味があります。 –
いずれにせよ、これは単なる許可リストであり、クロールする場所のリストではありません。彼らはリンクをたどって行く場所を得る。 – Barmar