2009-04-08 30 views
1

こんにちは、私は.NETでOCRのコンポーネントを試しましたが、結果はかなり不十分です。他の誰かがこのルートを下っているのですか?満足のいく結果が得られない多くのコンポーネントを評価する時間を節約するための道をお勧めしますか?OCR .NET推奨

非常に感謝します。私は購入したり、自分自身をコーディングしていません。最も効果的で費用対効果の高いものはどれでも。

おかげ

+0

重複:http://stackoverflow.com/questions/591574/ocr-in-net –

答えて

0

は、Officeに付属しているMODIコンポーネントを試したことがありますか? CodeProjectでthis articleを確認してください。

1

私たちのプロジェクトではAbby Fine Reader SDKを使用しました。 .NETアプリケーションで使用できるCOMオブジェクトが付属しています。エンジンの成功は十分です。

+0

私たちのために同じ。 APIにはいくつかの落とし穴がありますが、結果は本当に素晴らしいです。 –

0

ABBYYのコンポーネントはかなり高価です。私はPegasus ImagXpressとAtalasoft DotImageを評価しました.DotImageがフルページOCRでより正確であると分かっていましたが、認識が難しいテキストの一部がImagXpressで読みやすくなりました。 私は両方のデモ版を試し、あなたのニーズに最適なものを見てみることをお勧めします。

0

代替エンジンに関する情報は、https://stackoverflow.com/a/18070183/852208を参照してください。

正確性の問題はライブラリ自体に関連する可能性があります。しかし、それはあなたが作業している画像ソースの可能性が高いです。次tipsを考えてみましょう:

テキストの配慮

  • 標準OCRは、特定の材料に試行されるべきではありません。たとえば、既定の設定のOCRは、1850年より前に公開されたほとんどのテキストで
    を試してはいけません。一部の言語(たとえば、
    ドイツ語)では、カットオフの日付が後である場合もあります。
    OCRを介してこれらの材料の表記を作成しようとする前に、詳細な分析と
    OCRとキーボードオプションの間のトレードオフを判断するために、しばしば実験が必要です。
  • 古い画像や変色した文書は、すべての画像データをキャプチャしてOCR精度を最大限に高めるには、RGBモードでスキャンする必要があります。
  • コントラストの低いドキュメントでは、OCRが悪くなる可能性があります。
  • Typescriptは印刷タイプよりOCRが劣ります。フォントの面やサイズを一貫して使用しないと、OCRの精度が低下する可能性があります。
  • 原稿のサイズが6ポイント未満であると、OCRが制限されることがありますが、グレースケールを使用してスキャン画像の解像度を600dpiに、 にするとOCR出力が向上することがあります。
  • 手書き文書は、ある程度正確に認識することはできません。 OCRの精度に影響を与える

走査考慮事項は、次のとおり

  • OCRの精度のために推奨される最高のスキャン解像度が300dpiのです。解像度が高いほど必ずしも良好な結果が得られるとは限りません。また、OCRの処理時間も遅くなる可能性があります。 300 dpi未満の解像度は、OCR結果の品質と精度に影響する場合があります。
  • 明るさの設定が高すぎたり低すぎたりすると、OCRの精度に悪影響を与えることがあります。ほとんどの場合、50%の中間輝度値が に適しています。
  • 初期スキャンの真直度がOCR品質に影響する可能性があります。曲がったテキスト行は、結果が悪くなります。
  • 古い画像や変色した文書は、すべての画像データをキャプチャしてOCR精度を最大限に高めるには、RGBモードでスキャンする必要があります。
  • OCRの精度を大幅に向上させるために、コントラスト調整やアンシャープマスクなどの画像改善は行われていません。