2017-05-02 28 views
0

同じレイアウト(厳密なフォームは可変データで塗りつぶされています)のドキュメントのスキャン画像がたくさんあります。 OCR。私は、OCRのプロセス自体に多かれ少なかれ対処することができます(テキストイメージをテキストに変換する)が、スキャンされたイメージが異なる回転、スケーリング、またはその両方によって歪んでいるという厄介な事にも対処しなければなりません。PythonでOCRの前処理としてイメージを「正規化」(スキュー除去、再スケーリング)

私の方法は、ピクセルで境界ボックスとして定義されたそれぞれのセルから情報を読み取ることに焦点を当てているため、すべての画像をすべての対応するセルが同じピクセル位置にある「標準」バージョンに変換する必要があります。 "誤読"。私の質問は、歪んだ画像をどのように「正規化」できるのでしょうか?

私はPythonを使用します。

答えて

-2

今日、大量のフォームスキャンジョブでは、画像を準備するためのデスキューと選択的な二値化を行う適応テンプレートマッチングを使用する市販のソフトウェアを使用しますが、XY位置にボックスを配置せずにイメージごとのフィールドボックスを適応させます。

デスキュープロセス全体が画像サイズを大きくします。 https://github.com/tesseract-ocr/tesseract/wiki/skew-linedetection.png ドキュメントのタイトルが上の境界近くにあり、傾き補正されたイメージでは下にシフトしていることに注目してください。この過度に単純化された例では、XYベースのボックスはそれをキャッチしませんでした。

私はスキュー調整と画像前処理のために市販のソフトウェアを使用します。それは非常に安価ですが、良いです。残念ながら、私は、データキャプチャ方法がxy座標のフィールドマッチングに依存している場合には、パーツウェイだけを取ると信じています。私はそれに対処することであなたの不満を感じます。したがって、それを処理するための適切なツールがすでに作成されています。

このようなフォーム処理のためにサービスビューローを実行します。あなたが興味を持っているなら私は私たちがどのように処理するかを私的に分かち合うことができます。

関連する問題