2012-02-11 11 views
2

最初私の最終目標は、たTesseractと次画像を処理することである。 http://ubuntuone.com/72m0ujsL9RhgfMIlugRDWP (Iは、第2および第3の列を一掃...)行、OpenCVの列検出(OCR前処理)

しかしたTesseractを有します点線の背景に問題があります。ですから私の考えはOpenCVで画像を前処理することです。私が何らかの形で各行を検出できるのは、偶数行以外のしきい値を適用して点線の背景を削除する必要があるからです。私の問題を解決するための解決策はありますか?これまで私はハフ変換とおそらくセグメンテーションを見つけましたが、結果はあまり良くありませんでした(おそらく間違ったパラメータのため)...しかし、これらが可能なアプローチであり、私が自分の時間をベストに投資するかどうかはわかりません。 2番目の列には数字と3番目の文字のみが含まれているため、列の検出も問題ありません。この「知識」をtesseractに渡すことで、検出率をさらに向上させることができます。

誰かが私にこの問題を解決するためのヒントと、どのOpenCV関数が最もよく使用されているか、どのパレメーターを使用すればよいか本当に感謝します。さまざまなステップについて私に公正なアイデアを与える一部のスニペットも役立ちます。

ありがとうございます!

大切にしてください。

答えて

0

文字の幅に比べてドットがかなり小さく見えるので、私はあなたに浸食のようなものを使用することをお勧めします。

または私は適切な閾値を使ってCannyエッジ検出を行い、ドットのむしろ短くて薄いエッジを破棄します。

これがうまくいけば楽しいです!

+0

お返事ありがとうございます。私はすでに侵食を試みましたが、この種の文字を "破壊"してしまいました。すでに述べたように、私はtesseractの期待される内容を定義するのに役立つので、イメージを適切にセグメント化する方法(行+行=>セル)を好むでしょう。 – asotbb