Wgetファイル形式

すべてのサイトコンテンツをダウンロードし、ダウンロードした「* .pdf」ファイルのフォルダを解析する必要があります。私はwget -r --no-parent http://www.example.com/を使用してサイトをダウンロードしています。しかし、問題は、それがこのように見えない、時々リンクが指定されていないファイル形式「= K20 fは？dpubs」このWgetファイル形式

http://www.foodmanufuture.eu/dpubs?f=K20

とdowloaded PDFは名前でダウンロードされるように見えるということです"dpubs？f = K20.pdf"、このフォルダにあるPDFファイルの数を確認する方法はありますか？

出典

2017-02-12 Alexander Demichev

あなたはコマンドこのよう

file filename

を使用することができます。

file pdfurl-guide 
pdfurl-guide: PDF document, version 1.5

あなたが使用することができます

file *

は正確にあなたのフォルダ内のどのファイルがPDFファイルです知るために

出典

2017-02-12 18:08:23

--content-dispositionフラグを試しましたか？マニュアルページから：

これがオンに設定されていると、 "Content-Disposition"ヘッダーの実験的（完全に機能していない）サポートが有効になります。これは現在、 "HEAD"リクエストのためのサーバーへの余分なラウンドトリップを引き起こし、いくつかのバグを被ることが知られています。なぜなら、現在デフォルトでは有効になっていないからです。 このオプションは、ダウンロードされたファイルの名前がであることを記述するために "Content-Disposition"ヘッダーを使用するいくつかのファイルダウンロードCGIプログラムで役に立ちます。

したがって、サーバーにファイル名を入力しようとします。私はあなたが与えたURLのためにそれを試み、それは働くように思われた。

出典

2017-02-12 18:13:27 CannibalGorilla

素晴らしい！ありがとうございました！ –

答えて

関連する問題