2017-06-08 11 views
1

ウェブクロールが新しく、特定のrobots.txtファイルの理解に問題があります。Robots.txtとAllow?

User-agent: * 

Allow:/

Sitemap: sitemapURLHere 

だから私は/hereを見上げると、それは任意のパスのためだった。この場合、これは、ウェブサイトを持っているものです。これは、ウェブサイトがすべてのページをクロールできることを意味しますか?しかし、ときに私はsitemap.xmlとの基本的なクロール(または別のサイトのURLを)やろうscrapyとのリンク、すなわち

scrapy shell siteURL 

私はthisリンクからと仮定してい403 HTTP応答は、ことを意味し得ますウェブサイトはあなたが掻き傷しないように望んでいます...このサイトのrobots.txtはどういう意味ですか?

EDIT私が話していたファイルは、それが「robots.txtと同じディレクトリにsitemapURLHere利用可能と呼ばれるサイトマップがある」「任意のユーザエージェント(ボット)は、すべてのコンテンツにアクセスすることができます」と意味here

+1

おそらく認証が必要なページです。 404は通常、それを廃棄すべきではないことを示しています –

+0

@ cricket_007私は見る!私はちょうどサイトの 'response.text'を印刷し、それがcaptchaを求めていることに気付きました、それは私の問題でしょうか? – ocean800

+1

そうだね –

答えて

0

です。

REM:robots.txtは、アクセス制限を実施することを意味するものではありません。スクラップできない場合は、robots.txt自体のためではありません。