私はTVフッテージの字幕に対してOCRを適用しています。 (私はTesseact 3.x w/C++を使用しています)OCRの前処理としてテキストと背景部分を分割しようとしています。OCRの前処理のために画像からノイズとテキストを分割する方法
ここで元の画像です:
そして、前処理画像:
OCR結果は:Sicemnクローン
上記前処理された画像が示されているように、手紙の周りに残っているいくつかの「霧」があります。これは、OCRモジュールがj ob。
これらの「かぶり」をプログラマチックに削除する方法や、前処理された画像から画像を削除する画像処理を行う方法はありますか? (この写真に最適化するには、他の写真に影響を与えることができるので)
前処理されたロジックが大きく異なる画像を処理するために最適化されているので、私はむしろ、「クリーン」への道に前処理画像を見つけたい、前処理されたロジックを変更するよりも
どんな提案も大歓迎です。
更新
どうやら、sixelaの答えは素晴らしいです、そして例ほとんどで動作します。結果の
例:一見
、ガウスそれが機能しない 場合は、背景も動作していない場合の
例テキストの類似色を含んでこのタイプのフッテージではフィルタが問題を引き起こすようです。 これは、異なる映像が異なるアプローチを必要とする可能性があることを意味します。
背景が変化しながら、キャプションは、おそらくいくつかの連続するフレームに対して同一のままです。 n個のフレームにわたって変化するピクセルとほぼ同じままのピクセル間を分割しようとする場合があります。それは完璧ではありませんが、多くの場合に役立ちます。 –
こんにちはエイドリアン、あなたの助言をありがとう。はい、私はすでにOpenCVのabsdiffとMOGフィルタを使ってその方法を試しました。通常のフッテージではフレームのオブジェクトがあまりにも速く動くことはないので、うまく動作しませんでした。字幕が人に重なっていると、すばやく動かないが、字幕は1〜2秒間しか表示されないとしましょう。車の追いかけシーンであれば、うまくいくでしょう。 – Aki24x