を除くすべての非文字:http://www.regular-expressions.info/unicode.html#category次の正規表現で非文字と一致する方法についていくつかのヒントを与える:正規表現マッチ、私はこの素晴らしいガイドを発見した特殊記号(パイソン)
\P{L}
をしかし、この正規表現は、検討しますが非文字もà
としてU + 0061 U + 0300(私がよく理解していれば)としてコード化されています。 Pythonで次のコードをregexモジュールを使用して、例えば :
all_letter_doc = regex.sub(r'\P{L}', ' ', doc)
ガイドでpur
にpurè
を変えていくには、以下ですべての文字に一致する方法を提供すること
\p{L}\p{M}*+
と実際には私はそれを否定する必要があるが、それを得る方法は分からない。
'ur '\ P {L}''を試して、 'u '''と置き換えてください。文字と発音区別記号以外のすべての文字をスペースで置き換える場合は、 '[^ \ p {L} \ p {M}] +'正規表現 –
が必要です。受け入れてください。ありがとうございました! – Sanandrea
Python 2.xを使用していますか? –