2012-01-27 8 views
1

私はスキャンされたテキストを持っており、その中にガベージ文字がいくつか存在する可能性があります。ガベージ文字は通常、英数字や句読点ではありません。Python - ガベージ文字を含む単語を見つけるために正規表現を使用する

garbage_pat = re.compile(r"(\w*(?P<and>[^a-zA-Z0-9_ \t\n\r\f\v,.?!;:])+[\w(?P=and)]*)") 

この正規表現は正しく1つのごみの文字を含む単語を検索します。

は、私は、次の正規表現を持っています。 2つ以上のガベージ文字がある場合、正規表現は単語を分割しています。 たとえば、aut〜mo ilは2つの単語に分割されます。 2つ以上のガーベッジ文字が含まれている場合、正規表現に単語全体を返す方法を教えてください。

答えて

1

あなたがこのような表現を探しているようだ:

(\w*(?:[^a-zA-Z0-9_ \t\n\r\f\v,.?!;:]\w*)+) 
+0

おかげで、それが正常に動作します。 – user963386

関連する問題