Tesseract OCRエンジンは意味を持たないテキストを出力することがあります。意味のないテキストや単語を無視するアルゴリズムを設計したいと考えています。以下は出力テキストの一種です。 ""で区切られた認識されたテキスト内の単語とあまりにも多くの単語を持つテキストはガベージ(ヒント:私はせいぜい40単語を含む画像をスキャンしています)のアイデアは役に立ちます。意味のないOCR Engineの出力を無視するには?
wo:>"|axnoA1wvw\
ldflfig
°J!9O‘ !P99W M9N 6 13!-|15!Cl ‘I-/Vl
978 89l9 Z0 3+ 3 'l9.l.
97 999 VLL lLOZ+ 3 9l!q°lN
wo0'|axno/(@|au1e>1e: new;
1=96r2a1ey\1 1uauud0|e/\e(]
|8UJB){ p8UJL|\7'
非常に広い質問です。まず、テキストや単語に意味がないかどうかをどのように知っていますか? (つまり、完璧な辞書がありますか?)あなたは地元の間違いをどのように考慮しますか?例えば。 「ENGINE」が「ENGTINE」と読み込まれている場合、それを完全に破棄しますか?私は何度も行くことができます。 – ElKamina
私の質問が更新されました – chostDevil
単語の長さを調べる上で、連続した記号が多すぎたり、テキストの言語で発生しない連続した文字の組み合わせを検索することができます。 1-3文字の単語のスペルが間違っていたり、別の言語の単語が含まれていたりすることはありません。 – Benjamin