0

私はテキスト認識プロジェクトに取り組んでいます。 TensorFlowを使用して数字を予測する分類器を構築しましたが、テキストローカライゼーションとテキストセグメンテーション(各文字を区切る)を使用して、より複雑なテキスト認識アルゴリズムを実装したいと考えていますが、 。TensorFlowを使用したテキスト認識と検出

TensorFlowを使用してテキストをローカライズし、自然なシーンの画像(実際にスポーツ画像のスコアボードにテキストをローカライズしてセグメント化する)でテキストセグメンテーションを行うアルゴリズム/実装/ヒントIを知っていますか?

ありがとうございました。

+0

これは__extremely__広い質問であり、組紐の答えは「はい」です。 – putonspectacles

+0

OCRのマウス/タッチスクリーンジェスチャー認識アルゴリズムを使用するというアイデアを私は個人的に抱いています。似たようなことをしましたか? – Dalen

答えて

1

テキストや画像の段落のように、ページ上の要素をグループ化するには、いくつかのしきい値を使っていくつかのクラスタリングアルゴリズムやブロブ検出を使用できます。

ラドン変換を使用して、ラインを認識し、スキャンしたページのスキューを検出することができます。

文字分離のためには、フォントを混乱させる必要があると思います。いくつかの多項式マッチング/フィッティングまたは何か。 (これは今のところ非常に野生の推測ですが、真剣に考えてはいけません)。 しかし同様のaproachでは、文字を行から抜き出して同じステップで認識することができます。

認識については、いったん文字を取得すると、キャラクタの角度をデータベースに格納された角度と比較する素晴らしい三角法のトリックがあります。 手書きにも優れています。

私はページ分割の仕組みについての専門家ではありませんが、私は自分のものになろうとしているようです。ただそれを含むプロジェクトに取り組んでいます。 私に1ヶ月を与えれば、もっと話すことができます。 :D

とにかく、あなたはTesseractコードを読んで、HPとGoogleがそこでそれをしたのか見てください。それはあなたにかなり良いアイデアを与えるはずです。

幸運を祈る!

+0

ありがとう! 1か月であなたの答えを待っています:) –

+2

私はあなたが何もするべきではないと私は月に分割愚かなページで周りを取得するのを待つと言っていませんでした。私は模範的なコードの点でネット上には何もないと知っていますが、そこにはOCRの良い本がいくつかあります。私が言ったように、tesseractはGPLです。私はあなたが私の代わりに私の代わりになることを願っています。しかし、問題はありません。遅かれ早かれ、ページ分割に対処しなければならないでしょう。誰が最初に問題を解決するのか見てみましょう。 – Dalen

+0

@Dalenあなたのプロジェクトから結果を得ましたか?私はテキストの検出とセグメント化に関連するプロジェクトに取り組んでいます。 – SarahData

関連する問題