2016-12-06 21 views
1

私はウェブページを持ち出すことができますが、問題はありません。私はウェブページを保存することができます... htmlとして、問題ありません。私はmhtとしてWebページを保存する必要がありますので、mhtとして保存せずに隠されているすべてのhtmlを取得できます。私はpythonを使ってmhtとして保存する方法については何も研究していません。上記のように、私はhhtmlとして保存するためにコード化された標準を使用してmhtファイルとして保存しようとすることができますが、単に動作しません...どちらもうまくいきませんが、ショットに値するものでした。Python、mhtとして保存

url = 'https://www.thewebsite.com' 
html = urllib.request.urlopen(url).read() 

m = open('websitetest.mht', 'w') 
m.write(str(html)) 
m.close() 

私が保存しようとしているサイトがMHTとして保存するときが、htmlとして保存されていないときに出くわす「隠されたコード」を行います。したがって、なぜ私はmhtとして保存しようとしているので、すべてのコードを取得してから、コードを実行してデータベースをコンパイルする必要があります。

+0

あなたがどんな研究を行っていますか?これを行うためのツールがいくつかあるようです。 – jonrsharpe

+0

ここでstackoverflowを見て、 'python mht file'と入力するだけで、私がやりたいこととは遠く離れた数の結果しか得られませんでした。 – confused

+0

@jonrsharpeだからこれらのツールは何ですか? – user1712447

答えて

0

Python 2.7でコーディングされた非常に便利なGithubプロジェクトがあります(Python 3.4と互換性を持たせるために単純な変更が必要です)。このプロジェクトには、MHTファイルをパック/アンパックするためのコードがあります。私は、これはあなたが探しているものだと思う:

Un/packs an MHT (MHTML) archive into/from separate files, writing/reading them in directories to match their Content-Location.

関連する問題