私はサイトから画像をダウンロードするためにスクレーパーを作った。しかし、これを実行すると、次のエラーが表示されます。[HTTPError(req.full_url、code、msg、hdrs、fp) urllib.error.HTTPError:HTTPエラー403]。他のサイトでもこの方法を使用して画像を掻き集めるが問題はなかった。なぜこのエラーが現れ、回避策があるのか分かりません。誰かがそれを調べてくれることを願っています。私のスクレーパーが画像をダウンロードする代わりにエラーを投げる
import requests
import urllib.request
from lxml import html
def PictureScraping():
url = "https://www.yify-torrent.org/search/1080p/"
response = requests.get(url)
tree = html.fromstring(response.text)
titles = tree.xpath('//div[@class="movie-image"]')
for title in titles:
Pics = "https:" + title.xpath('.//img/@src')[0]
urllib.request.urlretrieve(Pics, Pics.split('/')[-1])
PictureScraping()
「403」HTTPコード、別名*未承認*です。あなたは確かにクローラとして発見されたので、黒はリストされています。この種の振る舞いを回避するには、プロキシとユーザーエージェントのhttpヘッダーを使用して遊ぶ必要があります。 – Arount