ドイツ語の任意の文字を削除/置換する必要があります(例:ü
)。re.sub()はユニコードをどのように理解していますか?
import re
re.sub(r'^\w{1}$', '', u'ü', re.U)
> u'\xfc'
上記のコードは動作しませんが、なぜならば:
re.U、 re.UNICODE の\ W、\ bの、\のB、W \を作成し、 \ d、\ D、\ sおよび\ Sシーケンスは、Unicode文字プロパティデータベースに依存します。また、IGNORECASEに対して非ASCIIマッチングを有効にします。
あなたは多分そのように国際文字を置き換えるべきではありません。 'unidecode'モジュールや' str.translate() 'のような優れた解決策があります。 – hop