2009-08-31 5 views
1

wildacrdsをPythonで使用してウェブサイトからファイルをダウンロードするにはどうすればよいですか?定期的にファイルをダウンロードする必要があるサイトがあります。問題は、ファイル名が毎回変わることです。しかし、ファイルの一部は同じにとどまります。ワイルドカードを使用してURLのファイルの未知の部分を指定するにはどうすればよいですか?Pythonでのワイルドカードダウンロード

答えて

7

ファイル名が変更された場合でも、のリンクがファイルのどこかに存在する必要があります(そうしないと、ファイル名を推測することはできません)。典型的なアプローチは、ファイルへのリンクを含むHTMLページを取得し、それを検索してリンクターゲットを探し、次に実際のファイルを取得するために2番目のリクエストを送信することです。

Webサーバーは、一般に、記述したような「ワイルドカード」機能を実装していないため、他の技術を使用する必要があります。

1

ftplibを使用してftpサーバーにログインできます。 Pythonのドキュメントから :

from ftplib import FTP 
ftp = FTP('ftp.cwi.nl') # connect to host, default port 
ftp.login()    # user anonymous, passwd [email protected] 

FTPオブジェクトは、ディレクトリの内容を一覧表示しますdir方法があります。 このリストを使用して、必要なファイルの名前を見つけることができます。