として保存:Pdfファイルこれは私のコードでHTMLファイル - パイソン
import requests
import time
from bs4 import BeautifulSoup as bs
import urllib.request
user_agent = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.7) Gecko/2009021910 Firefox/3.0.7'
headers={'User-Agent':user_agent,}
_URL = 'http://papers.xtremepapers.com/CIE/Cambridge%20International%20A%20and%20AS%20Level/Chemistry%20%289701%29/'
r = requests.get(_URL)
soup = bs(r.text)
urls = []
names = []
for i, link in enumerate(soup.findAll('a')):
_FULLURL = _URL + (link.get('href'))
if _FULLURL.endswith('.pdf'):
urls.append(_FULLURL)
names.append(soup.select('a')[i].attrs['href'])
names_urls = zip(names, urls)
for name, url in names_urls:
print (url)
rq = urllib.request.Request(url,None,headers)
res = urllib.request.urlopen(rq)
pdf = open("pdfs/" + (name), 'wb')
pdf.write(res.read())
pdf.close()
print("completed")
PDFがダウンロードしているが、私はそれらを開いたとき、私は error
PSを取得します。私はPythonに新しいので、これがルーキーミスであれば私を許してください
を=オープン(「PDFファイル/」+拡張子がない場合、pdf = open( "pdf /" + name + "。pdf"、 'wb') 'に' –
@DatHydroGuyなぜそうですか?ちょっとビットですので、特別なlibなしでpdfバイナリコンテンツからpdfファイルを作成することができます。 –
@aeratedfrisbee応答ステータスコードとコンテンツタイプヘッダーをチェックして、ディスクに保存する前に期待通りの結果が得られていることを確認する必要があります。 –