2017-01-09 8 views
0

一連の画像として保存されている古いデータをたくさん取り出す必要があります。それらはすべて同じ背景色とテキスト色を持ち、すべて同じフォントサイズでVerdanaを使用します。このような何か:OCR画像をあらかじめ知っている画像

Example text私は列のピクセルをカウントし、私の前に「エンコード」グリフデータベースへの単一のグリフをマッチングして試してみた何

。かなりうまくいったが、2つの重大な問題があった

1)keming - グリフを区切る文字の間にスペースがあるかどうかを確認した。これは、2つの文字が重なったときには機能しませんでした。私は自分のデータベースにカーネード文字のすべての組み合わせを追加することで解決しました 2)エイリアシング - これは私の究極の問題です。エイリアシングのために1つの文字が多種多様に見えることがあります。私の認識コードのアプローチを完全に変更することなく、「Aのようなもの」のデータベースを構築してください。

So:画像に特定のフォントを認識するためのツールはありますか?

私は本当にたTesseractを使用するよりも、他のソリューションをいただければと思いますが、それが最も簡単な方法は、そのための良いOCRツールを使用することで、原因の複雑さと重量は明らか

答えて

1

に私の最後の選択です。この画像をデモページOCRSDK.comに差し込みました。完全に扱われました。 enter image description here これは商用ですが、いくつかの自由な量の認識があるので、あなたはarroundを再生し、それがあなたのために働くかどうかを判断できます。これはWeb APIなので、アプリケーションにプラグインするのはとても簡単で、code samples availabeがあります。

だから、既にフォントトレーニングを行わなくても十分かもしれません。ただし、精度がまだ十分でない場合は、フォントトレーニングを調べることができます。しかし、これはどんなOCRエンジンにとっても非常に複雑なプロセスです。しかし、あなた自身のOCRを発明するのはまだ簡単です。

免責事項:私はABBYYのために働いています

関連する問題