2012-04-05 9 views
1

OCRフォームの認識(データ抽出)について、さまざまな記事を見て、フォーム認識を行うためにニューラルネットワークを使用していると言いました。そのため、人工ニューラルネットワーク(ANN)とフォーム認識の関係は何ですか?ビジネスカードからフィールドを抽出する場合は、ANNを使用する必要がありますか、それともオプションですか?言い換えれば、いつANNを使用する必要がありますか?OCRと人工ニューラルネットワークの関係は何ですか?

答えて

1

少し異なります。 ANNはすべてのOCRの「エキスパート」です。しかし、OCRエンジンには多くの専門家がいます。 ANNを学ぶと、ANNだけを使って簡単なOCRエンジンを構築できますが、これはtri-gram、形態、データ型(BCRとFormsにとって非常に重要です)、辞書、接続コンポーネントアルゴリズムそれで、それを品質の結果を抽出するためのトリックの袋の中のただ一つのツールとして見てください。良いエンジンは、ANNと他のすべてを組み込むでしょう。 BCRでは、追加の考慮事項があり、接続されたコンポーネント、辞書には非常に重いものにし、ANNとパターンマッチングを使用して実際に認識する必要があります。

1

ANNはOCRを実行する1つの方法です。他にもあります。したがって、ANNを使用してBusinessCardからフィールドを抽出する場合は、オプションです。

+0

私は名刺からフィールドを抽出するために使用できる他の方法は何ですか? –

+1

OCRの場合、通常は文字認識のためのモジュール(ANN、SVMなど)を必要とします。まず、ブロック、ライン、カラムを抽出し、正規化、スケール、入力イメージを回転させる必要があります... – alfa

+0

SVMとは何か、それを学ぶ記事はありますか?行、列を抽出し、入力イメージを正規化、拡大縮小、回転させる方法に関する記事 –

1

良い質問です。私は最近OCRを行うGoogleプロジェクトであるOCRopusで遊んでいました。あなたは無料でそれを入手して、自分で遊ぶことができます。私はそれの背後にあるモジュールの1つとしてANNを持っていると確信しています。しかし、光学式文字認識の全プロセスは、多くのステップ(それぞれが何かを行い、結果を次のモジュールに渡す多数の異なる小さなモジュール)を持つことができます。

だから、ここで私はそのプロジェクト内のモジュールによって行われるものとして覚えているものをいくつか紹介します。黒と白にイメージを回したモジュールがありました

  1. - これはそれが簡単に後からモジュールになり扱う。
  2. スペックル/スペックルを除去すること。
  3. テキストの行を整列させる。個々の単語にテキストの
  4. 破る行は、ニューラルネットを含まないコードの小さなビットを使用して、上記行うことができ、

基本的には(それがこの1わからない数週間、となっています)。したがって、これらの小さなコードで簡単に処理できます。

私は思ったニューラルネットは、個々の文字を認識するために使用されています - 可能な文字のグループの文字はそれです。

私は1週間以上走っていたOCRopusにトレーニングコマンドがあり、ラインサンプルをマップに送っていて、地図がゆっくりと変化していました。私はそれがANNの部分を訓練していたと思います。

関連する問題