-3
私はスクレーパーを作るためにpythonでurllibを使ってみたいと思っていますが、画像をダウンロードできますが、250x250以下のサムネイルです(私は4chanを試しています。画像スレッド) 完全な画像を取得するにはどうすればよいですか? は、ここに私のコードPythonスクレイパーに関する助けが必要
import urllib2, urllib
from BeautifulSoup import BeautifulSoup
import re
import urlparse
i = 0
ext = "'src' : re.compile(r'(jpe?g)|(png)|$'"
url = raw_input("Enter URL here:")
ender = raw_input("Enter File Type Here(For Images enter 'img'):")
if ender == "img":
ender = 'img', {'src' : re.compile(r'(.jpe?g)|(.png)|(.gif)$')}
else:
if "." in ender:
end = ender
else:
end = ".%s" % ender
raw = urllib.urlopen(url)
soup = BeautifulSoup(raw)
parse = list(urlparse.urlparse(url))
for ender in soup.findAll(ender):
links = "%(src)s"% ender
print links
str(links)
if ".jpg" in links:
end = ".jpg"
if ".jpeg" in links:
end = ".jpeg"
if ".gif" in links:
end = ".gif"
if ".png" in links:
end = ".png"
i += 1
urllib.urlretrieve(links, "%s%s" % (i, end))
on 4chan、画像はハイパーリンクのようなもので、単に「href」部分を抽出してダウンロードします。 –
しかし、別のウェブサイトでそれらを使用したいのですが? –
4chanで完全なパスを解析するスクリプトを作成します。私は仕事中にあなたに例を書いてもらえませんし、人々が私に4chanのものをやってもらえるとは思わないと思っています:P –