1
私はスキャンされたテキストを持っており、その中にガベージ文字がいくつか存在する可能性があります。ガベージ文字は通常、英数字や句読点ではありません。Python - ガベージ文字を含む単語を見つけるために正規表現を使用する
garbage_pat = re.compile(r"(\w*(?P<and>[^a-zA-Z0-9_ \t\n\r\f\v,.?!;:])+[\w(?P=and)]*)")
この正規表現は正しく1つのごみの文字を含む単語を検索します。
は、私は、次の正規表現を持っています。 2つ以上のガベージ文字がある場合、正規表現は単語を分割しています。 たとえば、aut〜mo ilは2つの単語に分割されます。 2つ以上のガーベッジ文字が含まれている場合、正規表現に単語全体を返す方法を教えてください。
おかげで、それが正常に動作します。 – user963386