2017-02-12 18 views
0

すべてのサイトコンテンツをダウンロードし、ダウンロードした「* .pdf」ファイルのフォルダを解析する必要があります。私はwget -r --no-parent http://www.example.com/を使用してサイトをダウンロードしています。しかし、問題は、それがこのように見えない、時々リンクが指定されていないファイル形式「= K20 fは?dpubs」このWgetファイル形式

http://www.foodmanufuture.eu/dpubs?f=K20 

とdowloaded PDFは名前でダウンロードされるように見えるということです"dpubs?f = K20.pdf"、このフォルダにあるPDFファイルの数を確認する方法はありますか?

答えて

0

あなたはコマンドこのよう

file filename 

を使用することができます。

file pdfurl-guide 
pdfurl-guide: PDF document, version 1.5 

あなたが使用することができます

file * 

は正確にあなたのフォルダ内のどのファイルがPDFファイルです知るために

1

--content-dispositionフラグを試しましたか?マニュアルページから:

これがオンに設定されていると、 "Content-Disposition"ヘッダーの実験的(完全に機能していない)サポートが有効になります。これは現在、 "HEAD"リクエストのためのサーバーへの余分なラウンドトリップを引き起こし、いくつかのバグを被ることが知られています。なぜなら、現在デフォルトでは有効になっていないからです。 このオプションは、ダウンロードされたファイルの名前がであることを記述するために "Content-Disposition"ヘッダーを使用するいくつかのファイルダウンロードCGIプログラムで役に立ちます。

したがって、サーバーにファイル名を入力しようとします。私はあなたが与えたURLのためにそれを試み、それは働くように思われた。

+0

素晴らしい!ありがとうございました! –