以下は機能しませんでした。なぜ私はそれが開始URLで停止し、指定されたファイルタイプを検索するためのリンクには入っていないのか分かりません。wgetを使用して特定の種類のすべてのファイルをWebサイトからダウンロードしてください
のwget -r -Aの.pdf HOME_PAGE_URL
再帰的にウェブサイト内のすべてのPDFファイルをダウンロードするための他の方法。 ?
以下は機能しませんでした。なぜ私はそれが開始URLで停止し、指定されたファイルタイプを検索するためのリンクには入っていないのか分かりません。wgetを使用して特定の種類のすべてのファイルをWebサイトからダウンロードしてください
のwget -r -Aの.pdf HOME_PAGE_URL
再帰的にウェブサイト内のすべてのPDFファイルをダウンロードするための他の方法。 ?
robots.txtに基づいている可能性があります。 -e robots=off
を追加してください。
その他の問題は、cookieベースの認証またはwgetのエージェント拒否です。 See these examples.
EDIT:「.PDF」のドットが私のためにsunsite.univie.ac.at
試したが同じ結果。クッキーベースのウェブサイトではありません。私はPythonのurllibオープンrecursivelyを使用してダウンロードすることができます。ログはあなたを助けることがあります。基本的にホームページには、
何を試しましたか?ドットを削除しますか? robots.txtを無視しますか?またはブラウザをシミュレートしますか?またはそれらのすべて? – rimrul
ドットを削除してロボットを無視しようとしました – SoulMan
次cmdの作品によると間違っている、それは[どのようにのサイト
wget -A pdf,jpg,png -m -p -E -k -K -np http://site/path/
可能な重複の画像をダウンロードしますwget/curlを使用して、特定のWebページ上の.zipファイルへのすべてのリンクをダウンロードしてください。](http://stackoverflow.com/questions/13533217/how-to-download-all-links-to-zip-files-on-a -given-web-page-using-wget-curl) – Seanny123