2017-12-12 8 views
1

私はいくつかの印刷フォームからいくつかの情報を抽出するために、Rでtesserectパッケージを使用しようとしています。しかし、私はいくつかの文字がフォームマージンを超えたインスタンスを扱うのは難しいと思っています。R:OCR用ボーダー除去

sample form

いくつかのチュートリアルを読んだ後、それは私の結果を改善する可能性が国境を取り除くように思えます。とにかく私はRにパッケージを利用してこれを行うことができますか?パッケージ "magick"を見てきましたが、それはボーダーを検出する機能を持たないようです。 最後に、この問題に対処する別の方法がある場合は、教えてください。 ありがとう

答えて

0

確かに、画像からライン/グリッドを削除すると、OCR精度が向上します。

イメージに横書きと縦書きのテキストが印刷されていると仮定して、ここにショットを付けることができます。

1)イメージに存在する線に従って、所定のしきい値を超える長さの水平線を探します。

2)ラインの画素をスキャンして、ラインの画素の上下の黒画素が存在しない場合、それらを削除)線の太さを

3を探します。この手順では、行を削除している間に文字ピクセルを削除しないようにします。

4)縦線に同じ1,2を使用します。

5)再度、垂直ラインをスキャンし、ラインピクセルの左右の位置に黒いピクセルがない場合は、ラインピクセルを削除します。

関連する問題