画像を入力として取り込んでテキストを出力するプログラムを作ってみたい。今私は、ニューラルネットワークを使って、そのキャラクターに単一のキャラクターのイメージを変えることができることを知っています。難しいのは、テキストが入った画像を与えられた場合、個々のキャラクターの周りにどのようにすべての矩形を描くのでしょうか?OCRプログラムはどのように作成しますか?
どのような方法がこれに使用されていますか、それを行う方法を論じている研究論文を知っている人はいますか?
http://en.wikipedia.org/wiki/Optical_character_recognition
はグーグルたTesseract
http://code.google.com/p/tesseract-ocr/
EDITを参照してください:これは、OCRの話をしているように聞こえる、人工知能のような音はありませんあなた
これは非常に興味深いのですが、あなたが記述する方法は時にはうまくいくと思うのですが、それは学ぶことができないからです。ニューラルネットワークは、個々のシンボルを読むことでより良くなるように訓練することができますが、あなたのアイデアを使用して完璧になったら、この手順の一部で制限されるような気がします。それが当てはまると思いますか、誤解していますか? – quanta
ああ、少し質問を誤解しました。伝統的なアプローチは、1)画像強調2)セグメント化3)文字認識(NNを使用して)4)コンテキスト情報(辞書検索または統計データの適用)を使用することです。基本的にNNを使用してセグメンテーションを行うか、NNを使用して2)と3)を組み合わせるかの選択肢があります。後者は難しいだろうが、潜在的な利点がある。セグメンテーションにNNを適用したい場合は、優れた機能が必要です。ヒストグラムの谷を使用することは、それらの1つかもしれません(私はこれを実際に行っていないので、実際に結果を予測することはできません)。 – Emile
おめでとうございます!ハフ変換をほぼ再発明しました。 –