OCRを使わないと、何千もの画像とそれに対応するテキストを訓練するだけで、OCRを使ってレシートからテキストを読み込む方法を教えてください。ここで手動で抽出した自分のデータイメージとテキストに基づいて請求書からテキストを抽出するにはどうすればよいですか?
は、領収書のサンプル画像は、次のとおりです。理論的に
OCRを使わないと、何千もの画像とそれに対応するテキストを訓練するだけで、OCRを使ってレシートからテキストを読み込む方法を教えてください。ここで手動で抽出した自分のデータイメージとテキストに基づいて請求書からテキストを抽出するにはどうすればよいですか?
は、領収書のサンプル画像は、次のとおりです。理論的に
あなたは文字を検出することが可能であろういくつかの畳み込みニューラルネットワークを訓練することができるはずです。画像上に文字検出ウインドウを移動することで、テキストを抽出することができます。
今、これは非常に脆弱です。フォント/色/向き/ズームのわずかな変更は、ネットワークを台無しにする可能性があります。それらを一つずつ修正することはできますが、OCRシステムが完成します。
必要な作業量を考えれば、既製のOCRソリューションを入手するほうが良いかもしれません。
いずれにしても、畳み込みネットワーク(link)のテンソルフローチュートリアルで始めることができます。
たとえば、OCRのテキストがあります:19Nov '17 07:54 PM - >とデータベース "date" 2017年11月19日」。どのようにしてOCRテキストと対応値をすべて鍛えることができますか? – bo791
質問を再入力 –
何千もの画像とそれに対応するテキストを訓練して、請求書からデータを取得するにはどうすればいいですか? – bo791