0
を否定します。以下のような他の正規表現を試してみましたが、運はありません。scrapyは、私は次のようにローカライズされたURLを拒否しようとしているmはローカライズされたURLに
rules = (
Rule(LinkExtractor(deny=(r'\/es\/*.*')), follow = True)
)
私は基本的に英語版のリソースにのみ興味があります。スペイン語版ではありません。URLに/es/
があります。
スペイン語のURLをクロールしないようにするにはどうすればよいですか?
ベストと簡単な方法は、mddlewareを使用して、任意のURLを無視することです'process_request'メソッドの内部 – Umair
ミドルウェアのために定義された 'process_request'メソッドはありませんか? – DarthVader
あなたが言ったことは分かりません。ダウンロードミドルウェアファイルを作成し、そのメソッドのprocess_requestの中にrequest.urlでURLにアクセスし、このURLをスクラップするか無視するかを決定します。 PS:process_requestは、URLがスクラップされる前に呼び出されます。 – Umair