私は手で記入されている事前定義されたフォームからのデータ入力を自動化するために探しています。文字は区切られていませんが、フィールドは表の下または表の一部として識別できます。手書きのOCRは依然として活発な研究の領域であり、私はオペレータレビュー機能を含めることができるので、90%を超える確度は期待していません。データ入力の自動化
私が考えた最初の解決策は、フィールド識別用のOpenCV(http://answers.opencv.org/question/63847/how-to-extract-tables-from-an-image/)と手書きを認識するためのTesseract(https://github.com/openpaperwork/pyocr)の組み合わせです。
事前定義されたフォームとフィールド識別するための他の潜在的に単純で、より効果的方法は、何らかの形充填形のブランクフォームを減算することであろう。フォームがスキャンされるので、これは多少の位置許容誤差、ノイズ低減、およびフィーチャ認識を必要とする可能性が高い。
任意の提案やコメントをいただければ幸いです。
一般的なアプローチを得るには、https://stackoverflow.com/questions/33452222/detect-table-with-opencv/46806306#46806306をご覧ください。 – flamelite