2013-08-16 8 views
8

以下は機能しませんでした。なぜ私はそれが開始URLで停止し、指定されたファイルタイプを検索するためのリンクには入っていないのか分かりません。wgetを使用して特定の種類のすべてのファイルをWebサイトからダウンロードしてください

のwget -r -Aの.pdf HOME_PAGE_URL

再帰的にウェブサイト内のすべてのPDFファイルをダウンロードするための他の方法。 ?

+0

可能な重複の画像をダウンロードしますwget/curlを使用して、特定のWebページ上の.zipファイルへのすべてのリンクをダウンロードしてください。](http://stackoverflow.com/questions/13533217/how-to-download-all-links-to-zip-files-on-a -given-web-page-using-wget-curl) – Seanny123

答えて

1

robots.txtに基づいている可能性があります。 -e robots=offを追加してください。

その他の問題は、cookieベースの認証またはwgetのエージェント拒否です。 See these examples.

EDIT:「.PDF」のドットが私のためにsunsite.univie.ac.at

+0

試したが同じ結果。クッキーベースのウェブサイトではありません。私はPythonのurllibオープンrecursivelyを使用してダウンロードすることができます。ログはあなたを助けることがあります。基本的にホームページには、を削除する必要があるため、削除する必要があります。その後、そこにリンクがなく、そこで停止するページをヒットします。希望のメイジの他のリンクはどうですか? – SoulMan

+0

何を試しましたか?ドットを削除しますか? robots.txtを無視しますか?またはブラウザをシミュレートしますか?またはそれらのすべて? – rimrul

+0

ドットを削除してロボットを無視しようとしました – SoulMan

1

次cmdの作品によると間違っている、それは[どのようにのサイト

wget -A pdf,jpg,png -m -p -E -k -K -np http://site/path/ 
関連する問題