robots.txtが禁止する方法？

scrapyでrobots.txtによって禁止されているリクエストをキャッチするにはどうすればよいですか？通常、これは自動的に無視されるように見えます。つまり、出力に何も表示されないため、これらのURLに何が起こるかは実際は分かりません。理想的には、URLをクロールするとrobots.txtエラーでこれが禁止される場合は、{'url': url, 'status': 'forbidden by robots.txt'}のようなレコードを出力したいと思います。どうやってやるの？robots.txtが禁止する方法？

治療に新しくなりました。助けをお待ちしています。

出典

2017-05-25 Psidom

プロジェクトフォルダのsettings.pyに移動し、ROBOTSTXT_OBEY = TrueをROBOTSTXT_OBEY = Falseに変更します。

出典

2017-08-23 15:00:41 Umarr

robots.txtが禁止する方法？

答えて

関連する問題