私は次のコードでthisウェブサイトからすべての.txtファイルをダウンロードしようとしている:私はこのコードを実行するとBeautifulSoupは、ファイルをダウンロードしない
from bs4 import BeautifulSoup as bs
import urllib
import urllib2
baseurl = "http://m-selig.ae.illinois.edu/props/volume-1/data/"
soup = bs(urllib2.urlopen(baseurl), 'lxml')
links = soup.findAll("a")
for link in links:
print link.text
urllib.urlretrieve(baseurl+link.text, link.text)
、print(link.text)
ラインは、正しいファイル名を印刷し、ディレクトリには、正しい名前のファイルが読み込まれますが、ファイルの内容は次のようになります:したがって、私は通信が働いていると確信しているが、私はどのように上に正しくBSを指示していないよ
<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">
<html><head>
<title>404 Not Found</title>
</head><body>
<h1>Not Found</h1>
<p>The requested URL /props/volume-1/data/ ance_8.5x6_2849cm_4000.txt was not found on this server.</p>
<p>Additionally, a 404 Not Found
error was encountered while trying to use an ErrorDocument to handle the request.</p>
<hr>
<address>Apache/2.2.29 (Unix) mod_ssl/2.2.29 OpenSSL/1.0.1e-fips mod_bwlimited/1.4 Server at m-selig.ae.illinois.edu Port 80</address>
</body></html>
をfの内容を保存するiles。また
は、私は現在findAll("a")
コマンドですべてのファイルをダウンロードするんだけど、実際には、このような*geom.txt
たぶん
なぜここに「data/ance_8」というスペースがありますか?すべきではない。これはファイルの内容ではなく、デフォルトのエラーページです。 –
こんにちは。わからない?これは私が変更できるものではありませんか? – Jonny
ページを取得しようとする前に、毎回スペースを削除(replace())するコードを書くことができます。 –