リンクされていないサイトからページをダウンロードするにはどうすればよいですか？

wgetを使用してサイト "citypaper.com"全体をミラーリングしようとしていますまず、index.htmlをダウンロードして停止します。解決策を見つけました： wget -r -p -e robots = off http://www.citypaper.com これで、index.htmlにリンクされているページだけでなく、リンクされているページなどもダウンロードされます。問題はこれらのページにはもはや実際には存在しない何千ものページがあります。 wgetがこれらのページをダウンロードする方法はありますか？リンクされていないサイトからページをダウンロードするにはどうすればよいですか？

出典

2017-11-02 Charlie H.

あなたが望むのは、私が考えるウェブクローラーです。あなたはこのようなツールを使い始めることができます。 https://www.screamingfrog.co.uk/crawl-javascript-seo/

出典

2017-11-02 16:07:18 duongthaiha

リンクされていないサイトからページをダウンロードするにはどうすればよいですか？

答えて

関連する問題