2016-03-26 9 views
0

英語と英語以外の文字の両方に一致する推奨RegExパターンがあるかどうかを知りたいと思います。これまで私はanswer provided at SOに基づいて[^\x00-\x7F]+|[a-zA-Z'-]*を考え出しました。私の解決策はうまくいくようですが、私はRegExにとってとても嬉しく思っていますので、このトークンを確認して改善を提案してほしいと思います。私はthisのようなこの問題に触れるほとんどの解決策を認識していますが、私はすでにこれについて良いRegExがあるとは思わない。RegEx:英語と英語以外の文字(と私の解決策)を扱う方法

答えて

0

答えは言語によって大きく異なります。しかし、一般的には、 "unicodeフラグ"を有効にする必要があります(これは通常、正規表現に(?u)を追加するか、/uを追加して行います)、ユニコード文字列を使用します。このように、\w\sなどは、対応するユニコード文字と正しく一致します。 Pythonの2(Pythonの3がデフォルトでUnicodeを使用しています)で

例:

>>> re.match('\w', 'è') # byte string, no unicode flag: no match 
>>> re.match('(?u)\w', u'è') # unicode string and unicode flag: match 
<_sre.SRE_Match object at 0x7f258bac07e8> 
>>> re.match('\w', u'è', re.UNICODE) # another way to enable the unicode flag 
<_sre.SRE_Match object at 0x7f258bac0850> 
+0

regex101.comにし、AutoHotkeyをでそれを使用する方法は? – menteith

+0

@menteith:私はregex101に慣れていないし、AutoHotKeyが何であるかわからない、ごめんなさい! "AutoHotKey unicode regex"を検索し、質問に[Tag:autohotkey]タグを追加し、あなたの質問がAutoHotKeyについて明示していることを明示してください(そうしないと、トピックがトピックとして閉じられる可能性があります) –

関連する問題