スキャンしたドキュメントからOCRの精度を向上させる

標準のBrother A3 Multifunctionを使用して多数のA3ドキュメントをスキャンしてから、FineReader Proを使用してイメージをOCRします。スキャンしたドキュメントからOCRの精度を向上させる

しかし、私は認識された文字に多くのエラーがあり、英数字以外の奇妙な文字がたくさんあります。

OCRの精度、スキャンされた画像の前処理、認識されたテキストの後処理のいずれかをプログラムで改善するためのヒントを教えてもらえますか？

編集：Find a sample pdf。それは私が最悪の結果を得るいくつかのサンプル画像を含んでいます。

プログラミングには何が関係していますか？ – leppie

画像処理IS数学/プログラミングhttp://amzn.to/ef6KR4 –

あなたはどこかに投稿できるサンプル画像がありますか？すぐにあなたの問題の原因となっていることを教えてください。 FineReaderは優れたOCRエンジンの1つで、貧弱な結果が得られる理由は間違いありません。

それが乏しいコントラスト及びしきい値設定、画像スキュー、スキャナのダーティローラ、複合着色背景、背景をディザリング、小さすぎるフォントサイズ、スキャン解像度が等低すぎる...

に関連することができます添付された画像を見た後、いくつか小さな問題があります。

背景ページには多くの汚れた斑点があります。 FineReaderはあなたのイメージでこれと合理的な仕事をするようです。
多少の歪みがありますが、原因と問題はありません。
FineReaderは、列ヘッダーに使用されるBOLD高級Arial型フォントと混同しています。
4大きな問題は、コントラストが悪く、画像がぼやけているページの最下部にあるようです。これはスキャナに問題があるようですが、印刷上の問題が原因である可能性があります。

印刷がかなり不良で、新聞からのスキャンだと思います。ほとんどのエラーはスキャンの問題によるものですので、結果をプログラム的に改善するのは難しいでしょう。

まず、画像をグレースケールで少し高い解像度でスキャンしてみましょう。 FineReaderはグレースケール画像でうまく動作します。 B/Wイメージを持っている必要がある場合、スキャナドライバに動的しきい値処理の設定が含まれていて、それをオンにするかどうかを確認します。

イメージは、どのOCRエンジンにとっても簡単な作業ではありません。スキャンを改善できれば、より良い結果が得られます。ページ3は、右下隅に多くのノイズがあります。

FineReasderのどのバージョンをお使いですか？ FR10はおそらく以前のバージョンよりも良い結果を出すでしょう。

2011-01-12 01:58:13

ここでいくつかのサンプルを見つけてくださいhttp://bit.ly/hMwax8 –

助けてくれてありがとう！私はあなたの提案に従い、結果を比較するつもりです。はい、私はFR10を使用します。 –

答えて