2017-05-22 6 views
-2

私は、店舗で生成された請求書/請求書をスキャンし、店舗名、住所、購入した商品、請求額などのキー機能を抽出できるモバイルアプリを作成する予定です。 OCRは法案(スキャンされた請求書または法案の写真)からテキストを抽出しますが、どのようにこれらの詳細をすべて抽出するのですか?どのようなアプローチを使用する?まあ紙幣を検出するためのOCR

答えて

3

、あなたが構築しようとしているアプリは、4つの段階

データ抽出を持つことになりますため - システムは、DOC、PPTやPDFなどのファイル形式で保存されたテキストデータを抽出することができるはずです。 システムはイメージからデータを抽出することもできるはずです。

データ識別 - データ抽出の次のステップは、ユーザー定義パターンに基づいてデータを識別することです。

データ分類 - ユーザー定義のカテゴリで分類します。

データの受け渡し - このプロセスで特定されたデータのカテゴリに基づいて、異なるアクションを実行します。

あなたは正しいです - 光学文字すなわちOCR上で動作する必要性の認識

OCRはからか、機械でエンコードされたテキストに入力された、手書きまたは印刷されたテキストの画像の機械的または電子的変換でありますスキャンされた文書、文書の写真。

また同じことをすることが商用製品やライブラリのための市場で利用可能なソリューションがたくさんある..

商用製品:

Googleドキュメント(無料)

ABBYY FineReaderのPro (有料)

OmniPage Standar (有料)

Readirisのプロ(有料)

しかし、あなたはまだそれはあなたがたTesseract-OCRを使用することができるため、独自の製品を構築したい場合 - あなたはJavaを使用してアプリケーションを構築することができます/ Python。 Tesseractは、利用可能な最も正確なオープンソースOCRエンジンです。

Leptonica Image Processing Libraryと組み合わせることで、さまざまな画像フォーマットを読み込み、60以上の言語のテキストに変換することができます。

また、使用する必要がありますAPACHE TIKA - Apache Tikaは、さまざまなファイル形式のドキュメントタイプ検出とコンテンツ抽出に使用されるライブラリです。

内部、ティカは、データを検出し抽出するために、様々な既存のドキュメントパーサーおよび文書型検出技術を使用します。

Tikaを使用すると、スプレッドシート、テキストドキュメント、画像、PDF、さらにはマルチメディア入力フォーマットのような異なるタイプのドキュメントから構造化テキストとメタデータの両方をある程度抽出することができます。

ティカは、異なるファイル形式を解析するための単一の汎用APIを提供します。これは、83種類の既存の特殊パーサーライブラリを各ドキュメントタイプに使用します。

これらのすべてのパーサライブラリがパーサ・インターフェースと呼ばれる単一のインターフェイスの下でカプセル化されている。..

のApacheティカ™ツールキットは、検出し、そのようなPPT、XLSなど千種類以上のファイルタイプ(からメタデータとテキストを抽出し、 PDF)。

これらのファイルタイプのすべては、検索エンジンのインデックス、コンテンツ解析、翻訳、および大いに多くのためティカは有用なものと、単一インターフェイスを介して解析することができます。

すべて一緒ティカServerおよびたTesseract OCRを使用すると良いでしょう。 Googleを使用してソリューションを構築している場合 -

これは、すべて一緒にインセプションAPIを使用して、GoogleのTensorflow画像認識との統合、OCRを使用して解析するPDFへの改良、メッセージ解析およびMIME検出

GoogleのビジョンAPIが含まれますクラウドプラットフォームGoogleのビジョンAPIは、GIF、BMP、WEBP、生の、イコーなど、Web上で使用される画像フォーマットのほとんどをサポート

など

テストは、画像に基づいて任意のパフォーマンスや品質の問題を明らかにしていませんJPEGなどの損失の多いフォーマットは、非常に低い解像度(すなわち、 1MP未満)。

Googleクラウドビジョンは、要求ごとに8メガバイトに制限されているGoogleのクラウドストレージ

Visionのバッチ処理のサポートに格納されたファイルを受け付けます。したがって、1000個の最新画像の比較的大きなデータセットでは、200を超えるバッチ要求が容易に必要になる場合があります。

結論

最良の結果については、ApacheのティカはたTesseract OCRとすべて一緒に使用する必要がありますオープンソースのソリューションであると原価計算0すなわちゼロになると思われます。

しかし、OCRは、彼らは重要な機能であると再びより、機能の正確で、他よりも高速で信頼性の高いすなわちGoogleのビジョンAPI何かを探している場合。

はい、それはコストが含まれ、それが有料のソリューションとしてカウントされます。

+0

詳細な説明をいただきありがとうございます。私はOCRがデータ抽出に相当することを理解しています。しかし、どのようにデータ識別/分類を行うのですか?どのアルゴリズムや既存のサンプルコードを調べることができますか? – user3807940

+1

malletを使ってみる - mallet.cs.umass.edu/ –

関連する問題