2016-07-12 12 views
1

非常に多くの画像ファイルを含むフォルダがあります。場合によっては、スキャンされたドキュメントイメージが偶然にフォルダ内に閉じ込められ、誰かがフォルダを視覚的にスキャンしてしまうと、検出されずに間違った場所に発行されると問題が発生することがあります。画像ファイルの内容を検出する:画像間でスキャンした文書を検索する

いずれの種類のファイルでもスキャンされている可能性があり、サイズは本物の画像の範囲内にあるため、メタデータから検出することは非常に困難です。

誰かが、本物のイメージから、スキャンしたドキュメントをツールやプログラム的な方法で検出する方法を知っていますか?

答えて

4

Accord Framework:http://accord-framework.net/をご覧になることをお勧めします。コンピュータビジョン機能を確認してください。私はそれがあなたが説明している課題に沿っているべきだと思っています。そして、それは学ぶ面白い新しい分野です。がんばろう。

+0

多くのトレーニングサンプルを使用することで、違いを認識するためにプログラム(アコードなどを使用)を「教える」ことができます。 –

+0

私はこれがおそらく最善の方法だと思います。パターンに合ったように見えるように画像にフラグを立て、人間の見直しに基づいて機械学習がパターンを絶えず洗練することを可能にします。 – BlueChippy

1

スキャンしたドキュメントは、イメージ処理ライブラリが行うべきドキュメントのように見えると仮定します。ドキュメントではないものを整理するには、いくつかの機能を選択するだけです。これらの機能を使用して、基本的な分類や機械学習を適用します。

残っているファイルは、人間が確認したり、ORCを使用して確認することができます。私は単純な分類よりも計算時間がかかるため、すべてのファイルに対してOCRを実行しません。

文書(特に秘密のもの)は、高い周波数の暗い前景を持つ明るい背景を持つ傾向があります。暗いものはラインでグループ分けされています。色がほとんどないことがあります。通常、これらの色は文書のほんの一部(ロゴなど)である場合 これらのプロパティを共有する多くのイメージは考えられません。

あなたのコレクションに新聞や書籍の写真がたくさんある場合を除き、あなたは大丈夫です。

もちろん、スキャナとカメラの結像特性や光学収差は異なりますが、ファイル内のいくつかを見つけることはできますが、すべての画像で機能するとは限りません。特に、それらの画像がより大きな画像から切り取られた場合はそうではありません。

0

フォルダに他のテキストオン背景画像がありますか?これらのスキャンされたドキュメントには大きな画像がありますか?非単純な画像の干し草から主にテキスト文書をフィルタリングする非確実な方法の1つは、シャノン(ヒストグラム)エントロピーに基づいて画像をハイパスすることであろう。ほとんどの画像はエントロピー値が単純な文書よりも大きなものです。

関連する問題