1
次の正規表現を使用して、英数字以外の文字(空白を削除しない)をstring
から削除します。英数字以外の文字を取り除いた後に取得
pattern = re.compile('([^\s\w]|_)+', re.UNICODE)
しかし、それでもまだ、私はフィルタリング後の次の文字列を取得しています:
ç
äää á á
à
åî òëâáä
öè
ãóûåüôç ñùü
ç ç
ôùñ öùî íîêïî
îïáìõáíö
ùèõáíö
òííòê õáíö
ø â áí
åîæíî
ííö ùîòõàä
ä
èèñ ñùü
èèñ ñùü
äóòåô êã
ïùùïäó ñùü
üíûçôñó ñùü
私は正規表現を使用してそれらに対処するにはどうすればよいですか?非英数字の文字を削除した後、上記の文字列を空の文字列にします。
私は前処理しようとしているユーザーのクエリのリストを持っています。私は以下のように該当するコードスニペットを提供しています。
query_text = ' '.join([pattern.sub(' ', word) for word in tokens[1].lower().split()])
query_text = query_text.strip()
ご注意:
- を、私は文字列与えられたスペースを除く任意の英数字以外の文字を削除して取り扱っております問題。
- 英語以外の英数字を削除します。
re.UNICODE
フラグ付き
と同等になるように
は、またはあなたが明示的に
re.ASCII
フラグを設定することができます。あなたが実際に*使用しているコードはどこですか? – BrenBarn@BrenBarnが追加されました。 –
あなたがしようとしていることは明確ではありません。ここでのフィルタリングは何ですか? 'pattern.sub'は? –