2017-12-28 41 views
-1

私は手で記入されている事前定義されたフォームからのデータ入力を自動化するために探しています。文字は区切られていませんが、フィールドは表の下または表の一部として識別できます。手書きのOCRは依然として活発な研究の領域であり、私はオペレータレビュー機能を含めることができるので、90%を超える確度は期待していません。データ入力の自動化

私が考えた最初の解決策は、フィールド識別用のOpenCV(http://answers.opencv.org/question/63847/how-to-extract-tables-from-an-image/)と手書きを認識するためのTesseract(https://github.com/openpaperwork/pyocr)の組み合わせです。

事前定義されたフォームとフィールド識別するための他の潜在的に単純で、より効果的方法は、何らかの形充填形のブランクフォームを減算することであろう。フォームがスキャンされるので、これは多少の位置許容誤差、ノイズ低減、およびフィーチャ認識を必要とする可能性が高い。

任意の提案やコメントをいただければ幸いです。

+1

一般的なアプローチを得るには、https://stackoverflow.com/questions/33452222/detect-table-with-opencv/46806306#46806306をご覧ください。 – flamelite

答えて

1

としては、あなたが成功した手書き認識を探している場合は使用することは推奨されていないたTesseract FAQで述べています。私は(画像から手書きのテキストを読むためにスクロールダウン)、あなたがオンラインでそれを試してみて、あなたのアプリケーションでそのAPIを使用することができますMicrosoft OCR APIのような商業的なプロジェクトに多くを見て、あなたをお勧めします。

別のオプションは、あなたが無料の代替用としてhere

詳細を読むことができますなどABBYYテーブルを認識するための便利な機能をたくさん持っているOCR、複雑な文書である - 心に来るだけと思うがLipi toolkit

です

文字の検出に関しては、実際に入力に依存します。一般に、フォームが毎回ほぼ同じであれば、単純にフォームを測定し、テキストを検索する必要があるあらかじめ定義された位置を使用することをお勧めします。それ以外の場合はOpenCVのテキストを探すために適切なテクノロジーである、ここでは、オンラインチュートリアルをたっぷりと良い答えは、たとえば、あなたがサイレンサーによってdetection using MSERの答えを見てとることができ、stackoverflowの上があります。

+0

チャットでこのディスカッションを続行してください(http: //chat.stackoverflow.com/rooms/162175/discussion- between-flamelite-and-dmitrii-z)。 – flamelite

関連する問題