Q

Python非Unicode文字を削除する正規表現

python

2016-07-03 17 views 2 likes

2

Python正規表現を使用して一部の文字を削除しようとしていますが、文字列からUnicode以外のように見えます。Python非Unicode文字を削除する正規表現

>>> xxx='Juliana Gon\xe7alves Miguel' 
>>> t=re.sub('\w*','',xxx) 
>>> t 
' \xe7 '

これの\ XE7私は削除しようとしているものです：

xxx='Juliana Gon\xe7alves Miguel' 
t=re.sub('\w*','',xxx) 
t

結果は同様である：はここに私のコードです。誰にでもアイデアはありますか？

2016-07-03 George Wang

+1

：すべてのASCII文字

(?!)のための短くて読みやすいバージョン。あなたはそれが正しいはずの手紙に変換したいですか？ –

+1

私はそれを理解したと思う。'xxx = 'Juliana Gon \ xe7alves Miguel' t = re.sub（ '\ w *'、 ''、xxx）.strip（）、 ''、xxx） t' –

A

答えて

2

所望の出力が

であれば 'ジュリアナGonalvesミゲル'

次の正規表現はトリックを行う必要があります。

re.sub('(?![ -~]).', '', xxx)

[ -~]：uはそれを削除しないでください否定先読み

2016-07-03 08:05:50

+0

うわー！あなたのコードは魅力のように動作します!!!! –

関連する問題