2016-07-03 17 views
2

Python正規表現を使用して一部の文字を削除しようとしていますが、文字列からUnicode以外のように見えます。Python非Unicode文字を削除する正規表現

>>> xxx='Juliana Gon\xe7alves Miguel' 
>>> t=re.sub('\w*','',xxx) 
>>> t 
' \xe7 ' 

これの\ XE7私は削除しようとしているものです:

xxx='Juliana Gon\xe7alves Miguel' 
t=re.sub('\w*','',xxx) 
t 

結果は同様である: はここに私のコードです。 誰にでもアイデアはありますか?

+1

:すべてのASCII文字

(?!)のための短くて読みやすいバージョン。あなたはそれが正しいはずの手紙に変換したいですか? –

+1

私はそれを理解したと思う。'xxx = 'Juliana Gon \ xe7alves Miguel' t = re.sub( '\ w *'、 ''、xxx).strip()、 ''、xxx) t' –

答えて

2

所望の出力が

であれば 'ジュリアナGonalvesミゲル'

次の正規表現はトリックを行う必要があります。

re.sub('(?![ -~]).', '', xxx) 

[ -~]:uはそれを削除しないでください否定先読み

+0

うわー!あなたのコードは魅力のように動作します!!!! –

関連する問題