私は、店舗で生成された請求書/請求書をスキャンし、店舗名、住所、購入した商品、請求額などのキー機能を抽出できるモバイルアプリを作成する予定です。 OCRは法案(スキャンされた請求書または法案の写真)からテキストを抽出しますが、どのようにこれらの詳細をすべて抽出するのですか?どのようなアプローチを使用する?まあ紙幣を検出するためのOCR
答えて
、あなたが構築しようとしているアプリは、4つの段階
データ抽出を持つことになりますため - システムは、DOC、PPTやPDFなどのファイル形式で保存されたテキストデータを抽出することができるはずです。 システムはイメージからデータを抽出することもできるはずです。
データ識別 - データ抽出の次のステップは、ユーザー定義パターンに基づいてデータを識別することです。
データ分類 - ユーザー定義のカテゴリで分類します。
データの受け渡し - このプロセスで特定されたデータのカテゴリに基づいて、異なるアクションを実行します。
あなたは正しいです - 光学文字すなわちOCR上で動作する必要性の認識
OCRはからか、機械でエンコードされたテキストに入力された、手書きまたは印刷されたテキストの画像の機械的または電子的変換でありますスキャンされた文書、文書の写真。
また同じことをすることが商用製品やライブラリのための市場で利用可能なソリューションがたくさんある..
商用製品:
Googleドキュメント(無料)
ABBYY FineReaderのPro (有料)
OmniPage Standar (有料)
Readirisのプロ(有料)
しかし、あなたはまだそれはあなたがたTesseract-OCRを使用することができるため、独自の製品を構築したい場合 - あなたはJavaを使用してアプリケーションを構築することができます/ Python。 Tesseractは、利用可能な最も正確なオープンソースOCRエンジンです。
Leptonica Image Processing Libraryと組み合わせることで、さまざまな画像フォーマットを読み込み、60以上の言語のテキストに変換することができます。
また、使用する必要がありますAPACHE TIKA - Apache Tikaは、さまざまなファイル形式のドキュメントタイプ検出とコンテンツ抽出に使用されるライブラリです。
内部、ティカは、データを検出し抽出するために、様々な既存のドキュメントパーサーおよび文書型検出技術を使用します。
Tikaを使用すると、スプレッドシート、テキストドキュメント、画像、PDF、さらにはマルチメディア入力フォーマットのような異なるタイプのドキュメントから構造化テキストとメタデータの両方をある程度抽出することができます。
ティカは、異なるファイル形式を解析するための単一の汎用APIを提供します。これは、83種類の既存の特殊パーサーライブラリを各ドキュメントタイプに使用します。
これらのすべてのパーサライブラリがパーサ・インターフェースと呼ばれる単一のインターフェイスの下でカプセル化されている。..
のApacheティカ™ツールキットは、検出し、そのようなPPT、XLSなど千種類以上のファイルタイプ(からメタデータとテキストを抽出し、 PDF)。
これらのファイルタイプのすべては、検索エンジンのインデックス、コンテンツ解析、翻訳、および大いに多くのためティカは有用なものと、単一インターフェイスを介して解析することができます。
すべて一緒ティカServerおよびたTesseract OCRを使用すると良いでしょう。 Googleを使用してソリューションを構築している場合 -
これは、すべて一緒にインセプションAPIを使用して、GoogleのTensorflow画像認識との統合、OCRを使用して解析するPDFへの改良、メッセージ解析およびMIME検出
GoogleのビジョンAPIが含まれますクラウドプラットフォームGoogleのビジョンAPIは、GIF、BMP、WEBP、生の、イコーなど、Web上で使用される画像フォーマットのほとんどをサポート
など
テストは、画像に基づいて任意のパフォーマンスや品質の問題を明らかにしていませんJPEGなどの損失の多いフォーマットは、非常に低い解像度(すなわち、 1MP未満)。
Googleクラウドビジョンは、要求ごとに8メガバイトに制限されているGoogleのクラウドストレージ
Visionのバッチ処理のサポートに格納されたファイルを受け付けます。したがって、1000個の最新画像の比較的大きなデータセットでは、200を超えるバッチ要求が容易に必要になる場合があります。
結論
最良の結果については、ApacheのティカはたTesseract OCRとすべて一緒に使用する必要がありますオープンソースのソリューションであると原価計算0すなわちゼロになると思われます。
しかし、OCRは、彼らは重要な機能であると再びより、機能の正確で、他よりも高速で信頼性の高いすなわちGoogleのビジョンAPI何かを探している場合。
はい、それはコストが含まれ、それが有料のソリューションとしてカウントされます。
- 1. OCRグラフ用紙
- 2. OCRマーカーを検出する
- 3. コイン/紙幣の最低額を変更する方法は?
- 4. OCRの手紙の中央だけを残すために手紙の端を薄くする
- 5. Python、テキスト検出OCR
- 6. 任意の金額の紙幣と硬貨の数を取得
- 7. iphoneでのOCR検出
- 8. 検出ライブ壁紙ピッカーの「壁紙を設定」ボタンをクリック
- 9. Googleの視覚OCRテキストの検出
- 10. 行、OpenCVの列検出(OCR前処理)
- 11. 言語の検出やアビーOCR
- 12. ノート紙に描画された線とドットを検出する
- 13. OCRシンボルと非シンボル検出/認識
- 14. OCR:指数検出、スーパー/サブスクリプト(C++)
- 15. Azure手書きまたはocrであるテキスト検出
- 16. アンドロイドの壁紙の向きを検出する方法
- 17. OS Xの用紙切れを検出する方法は?
- 18. tesseract OCR-QがOとして検出されました
- 19. OCR段落またはセクションの検索
- 20. OCRテキストで検出された矩形を描画する方法
- 21. トレーニング曖昧さのためのTesseract OCR
- 22. Tesseract OCRによる7セグメント表示のテキスト検出
- 23. アンドロイドで紙をリアルタイムで検出する方法
- 24. OCRの後にアンドロイドで画像からフォントの色を検出
- 25. メーターデバイスの数字を認識するためのOCRライブラリー
- 26. Anyline OCR SDK画像のURLをスキャンするための統合
- 27. Tesseract OCR出力値
- 28. TikaはTesseractを検出しましたが、OCRを実行しません
- 29. Googleのボール紙の磁気ボタンを検出するをクリックします。
- 30. OCRで番号を検出できません
詳細な説明をいただきありがとうございます。私はOCRがデータ抽出に相当することを理解しています。しかし、どのようにデータ識別/分類を行うのですか?どのアルゴリズムや既存のサンプルコードを調べることができますか? – user3807940
malletを使ってみる - mallet.cs.umass.edu/ –