wgetを使用して特定の種類のすべてのファイルをWebサイトからダウンロードしてください

以下は機能しませんでした。なぜ私はそれが開始URLで停止し、指定されたファイルタイプを検索するためのリンクには入っていないのか分かりません。wgetを使用して特定の種類のすべてのファイルをWebサイトからダウンロードしてください

のwget -r -Aの.pdf HOME_PAGE_URL

再帰的にウェブサイト内のすべてのPDFファイルをダウンロードするための他の方法。？

2013-08-16 SoulMan

可能な重複の画像をダウンロードしますwget/curlを使用して、特定のWebページ上の.zipファイルへのすべてのリンクをダウンロードしてください。]（http://stackoverflow.com/questions/13533217/how-to-download-all-links-to-zip-files-on-a -given-web-page-using-wget-curl） – Seanny123

robots.txtに基づいている可能性があります。 -e robots=offを追加してください。

その他の問題は、cookieベースの認証またはwgetのエージェント拒否です。 See these examples.

EDIT：「.PDF」のドットが私のためにsunsite.univie.ac.at

出典

2013-08-16 13:39:05 rimrul

試したが同じ結果。クッキーベースのウェブサイトではありません。私はPythonのurllibオープンrecursivelyを使用してダウンロードすることができます。ログはあなたを助けることがあります。基本的にホームページには、を削除する必要があるため、削除する必要があります。その後、そこにリンクがなく、そこで停止するページをヒットします。希望のメイジの他のリンクはどうですか？ – SoulMan

何を試しましたか？ドットを削除しますか？ robots.txtを無視しますか？またはブラウザをシミュレートしますか？またはそれらのすべて？ – rimrul

ドットを削除してロボットを無視しようとしました – SoulMan

次cmdの作品によると間違っている、それは[どのようにのサイト

wget -A pdf,jpg,png -m -p -E -k -K -np http://site/path/

出典

2015-06-03 06:27:18 telehan

wgetを使用して特定の種類のすべてのファイルをWebサイトからダウンロードしてください

答えて

関連する問題