2017-05-25 14 views
1

scrapyでrobots.txtによって禁止されているリクエストをキャッチするにはどうすればよいですか?通常、これは自動的に無視されるように見えます。つまり、出力に何も表示されないため、これらのURLに何が起こるかは実際は分かりません。理想的には、URLをクロールするとrobots.txtエラーでこれが禁止される場合は、{'url': url, 'status': 'forbidden by robots.txt'}のようなレコードを出力したいと思います。どうやってやるの?robots.txtが禁止する方法?

治療に新しくなりました。助けをお待ちしています。

答えて

2

プロジェクトフォルダのsettings.pyに移動し、ROBOTSTXT_OBEY = TrueROBOTSTXT_OBEY = Falseに変更します。

関連する問題