2017-02-01 10 views
0

https://www.workandincome.govt.nz/map/からすべてのHTMLファイルをディスクにダウンロードしようとしています。私が意味するのは、https://www.workandincome.govt.nz/map/のURLが「map」で終わった後で、index.htmlと他のすべてのHTMLファイルを取得する必要があるということです。例えば、私はダウンロードする必要があります。特定のURLのwgetサイトとそのサブディレクトリと

https://www.workandincome.govt.nz/マップhttps://www.workandincome.govt.nz/
/income-support/extra-help/disability-allowance/medical-fees-01.htmlマップ
/インカムサポート/エクストラヘルプ/community-costs/index.html

など。 マップがURLにない同じサイトから他のHTMLページをダウンロードする必要はありません。私は、wgetコマンド以下試してみました:

www.workandincome.govt.nz/:私は、その後https://www.workandincome.govt.nz/map/index.htmlと私は次のようにする必要はありません http://www.workandincome.govt.nz/robots.txtしてからHTMLファイルを取得して上記

wget --limit-rate=200k --recursive --html-extension --convert-links --random-wait --follow-tags=a -U "Mozilla/5.0 (X11; Linux x86_64)" https://www.workandincome.govt.nz/map/index.html 

オンラインサービス/ index.html、www.workandincome.govt.nz/eligibility/index.html

誰かが私が使用している助言とアドバイスを確認できますか? おかげ

+0

https://www.gnu.org/software/wget/manual/wget.html#Types-of-Files – CBroe

答えて

0

あなたは-AのPARAMを使用する必要が

wget -A "*map*" --limit-rate=200k --recursive --html-extension --convert-links --random-wait --follow-tags=a -U "Mozilla/5.0 (X11; Linux x86_64)" https://www.workandincome.govt.nz/map/index.html

関連する問題