0
GoogleドライブでホストされているすべてのPDFスライドをダウンロードしようとしています。収集されたURLは、PDFにリダイレクトされるGoogleドライブを示します。リクエストを使用してPDFをダウンロードしようとすると、バイナリデータではなくHTML(122 KB)のみをダウンロードします。Googleドライブから完全なPDFをダウンロードしないよう依頼する
import os, sys, time, random
import requests
from selenium import webdriver
from bs4 import BeautifulSoup
url = 'https://mila.umontreal.ca/en/cours/deep-learning-summer-school-2017/slides'
def download(url, name):
response = requests.get(url)
pdf = response.content
with open(name, 'wb') as f:
f.write(pdf)
browser = webdriver.Chrome()
browser.get(url)
browser.switch_to_frame(browser.find_element_by_class_name('iframe-class'))
links = browser.find_elements_by_css_selector('.flip-entry a')
titles = browser.find_elements_by_css_selector('.flip-entry-title')
pdfs = [link.get_attribute('href') for link in links]
names = [title.text for title in titles]
browser.quit()
for i, pdf in enumerate(pdfs): download(pdf, names[i])
感謝をあなたのビュー・リンクを変更するためにコードを追加する必要がありますが、ファイル
をダウンロードするためのダウンロードボタンを示しています。わずかに微調整(httpsではなくhttpを使用)で動作します。 – Char