私はPythonを初めて使いました。私の現在の仕事は、特定のWebページでPDFファイルを探してダウンロードするWebクローラを作成することです。ここで(ちょうど1サンプルURLの)私の現在のアプローチがあります:mechanizeとurllibを使ったpdfファイルのダウンロード
import mechanize
import urllib
import sys
mech = mechanize.Browser()
mech.set_handle_robots(False)
url = "http://www.xyz.com"
try:
mech.open(url, timeout = 30.0)
except HTTPError, e:
sys.exit("%d: %s" % (e.code, e.msg))
links = mech.links()
for l in links:
#Some are relative links
path = str(l.base_url[:-1])+str(l.url)
if path.find(".pdf") > 0:
urllib.urlretrieve(path)
プログラムがエラーなく実行されますが、私はPDFファイルを任意の場所に保存されて見ていないです。私はpdfにアクセスし、私のブラウザを通してそれを保存することができます。何が起きているのか? Pydev(Eclipseベース)を開発環境として使用しています。
もう1つの質問は、私がそれを保存しながら特定の名前をpdfに与えたいのですが、どうすればいいですか?このアプローチは正しいですか? PDFを保存する前に 'filename'でファイルを作成する必要がありますか?
urllib.urlretrieve(path, filename)
ありがとうございます。
ああ、私はそれを持っています。ありがとう。 – user721975