Python - ガベージ文字を含む単語を見つけるために正規表現を使用する

私はスキャンされたテキストを持っており、その中にガベージ文字がいくつか存在する可能性があります。ガベージ文字は通常、英数字や句読点ではありません。Python - ガベージ文字を含む単語を見つけるために正規表現を使用する

garbage_pat = re.compile(r"(\w*(?P<and>[^a-zA-Z0-9_ \t\n\r\f\v,.?!;:])+[\w(?P=and)]*)")

この正規表現は正しく1つのごみの文字を含む単語を検索します。

は、私は、次の正規表現を持っています。 2つ以上のガベージ文字がある場合、正規表現は単語を分割しています。たとえば、aut〜mo ilは2つの単語に分割されます。 2つ以上のガーベッジ文字が含まれている場合、正規表現に単語全体を返す方法を教えてください。

2012-01-27 user963386

あなたがこのような表現を探しているようだ：

(\w*(?:[^a-zA-Z0-9_ \t\n\r\f\v,.?!;:]\w*)+)

2012-01-27 12:00:05 Qtax

おかげで、それが正常に動作します。 – user963386

答えて