2016-12-28 8 views
1

mhtファイルを開いて処理しようとしています。ディーラーの位置情報を削り取りました。私が「トリッキーな」HTML形式のWebサイトにたどり着くたびに、私は常に同じ問題を抱えています。それはターン:mhtファイルの nを置換してください

のhref = "http://www.google.com/maps?s=123 MAIN ST" ......

a href="http://www.= 
google.com/maps?=12= 
3 main st" 

私が持っている何かこれまでに試してみたが、元の自己にラインを取り戻すために働いていない。私はまだアドレスを引き出すことができません。

a = a.replace(r'=\n', '') 

または

a = a.replace(r'\n', '') 

かさえしようとした、

a = a.replace(r'[0D]', '') 

とちょうど試してみました、

a = a.sub(r'\n', '') 

と私が得たすべてのエラー「strのオブジェクトが何の属性を持っていませんでした'sub'、それはtの有無にかかわらず同じことをする彼はコード内で 'r'です。

これまでのところ何も働いていません。私がmhtファイルを見るたびに常にポップアップする= \ nをどのように置き換えるのですか?

私は私のためにstr = str.replace("\n","") 作品をやって

a = open('Filename.mht', 'r') 
b = a.read() 
a.close() 
+0

mhtファイルを取得するために使用しているコードとそのオープン方法を教えてもらえますか? –

+0

私の答えはあなたのために働いたのですか? –

答えて

0

を使用しています。ですから、

string = '''a href="http://www.= 
google.com/maps?=12= 
3 main st''' 
string = string.replace("\n", "") 

print(string) 
'a href="http://www.=google.com/maps?=12=3 main st' 

をすれば This post might help, and explain why.

EDITに動作する必要があること:ちょうど、それは仕事をしていることをテストしました。

0

私は回避策を見つけたと思います。 .read()は問題を引き起こしていましたが、理由は分かりません。私はそれをreadlines()に変更してから、文字列を再構成し直しました。小さな例外を除いて、今すぐ正しく動作します。あなたがre.findallしようとしたとき...少なくとも私はそれがプログラムを今すぐハングアップさせている原因だと思う。

+0

まだ助けが必要ですか? –

関連する問題