2016-12-19 20 views
-3

私は、その写真から買い物費に表示された正味価格を取得する必要のあるアプリケーションに取り組んでいます。私はすでに "tesseract ocr" APIを使用して請求書イメージから編集可能なテキストを取り出しました。今では、テキストから「総額」だけを印刷する必要があります。商品名、数量、価格のある請求書全体からその部分(総価格)のみを抽出するにはどうすればよいですか?買い物費から合計金額を引き出す

+0

は、テキスト「総合計金額」を見つけて、その横に数を示しています。

は私の答えがお役に立てば幸いですか! –

+0

私はTesseract APIが何をすることができるのか分かりませんが、(1)通常は法案上で最も高い数字です。(2)通常大文字または太字で表示されます。紙の上部または下部 –

+0

ありがとう!私はこれらを試してみる。あなたは私に様々な種類の請求書のために正しいアルゴリズムを提案できますか? –

答えて

0

私はすぐに電話することができる迅速で便利な方法はないと思います。

Tesseractから返された.hocrファイルを調べる必要があります(詳細については、まずgoogle hocrをご覧ください)。 .hocrには、テキストの境界ボックス(x, y, width, height, languageなど)がすべて含まれており、これらの値を使用すると、単語が同じ行にあるかどうかを判断できます(単語 'Total'と合計金額は同じ行)。

ここから単語を選び、いくつかの論理演算を追加して(おそらくすべての文字/単語を削除して)合計値を得ることができます。

ps:私の会社は同様のものを扱っていますが、練習が遅くて簡単ではない(いくつかの言語の領収書を扱っています)ので、Tesseractを使用しないことに決めました。私たちはGoogle Vision APIを使用しています。 D

+0

ありがとうございます!私は確かにこれを試してみる:) –

関連する問題