urllib3
を使用してWebクローラーを構築しています。コード例:Python | Http - 正しいMIMEタイプを取得できません
from urllib3 import PoolManager
pool = PoolManager()
response = pool.request("GET", url)
mime_type = response.getheader("content-type")
私は、このようなdocxファイルやEPUBなどのファイルを文書化するためにいくつかのリンクにつまずいていると私は、サーバーから取得していますMIMEタイプはtext/plain
.ITは正しい MIMEを得るために私に重要ですタイプ。問題のあるURLへ
例:今
ファイルのMIMEタイプを取得するロジックは、それをサーバーから取得し、ファイルの拡張子を取得しようとして利用できない場合はされています。
どうすればFirefox
がこのような種類のURLで混乱することはなく、ユーザーはすぐにファイルをダウンロードできますか?このファイルがプレーンテキストではないことをどのように知っていますか?正しいMIMEタイプを取得するにはどうすればよいですか?
あなたは 'response'でどのようにMIMEタイプにアクセスしていますか? – lucasnadalutti
質問を更新しました。 –
これは、この問題を回避する方法です。まず、レスポンスを一時ファイルに保存します。そして、保存されたファイル名の 'content-type'を取り出します。 [リンク](http://stackoverflow.com/questions/43580/how-to-find-the-mime-type-of-a-file-in-python) –