2011-06-30 7 views
3

OCRの高速スクリーンフォントを実行するために使用できる技術やAPIがあるかどうかを知りたいですか?高速スクリーンフォントOCRテクニックまたはAPI?

は、以下のことが当然視されています

  • はOCRにテキストがスクリーンショットから来るものと
  • OCRにテキストがまたはアンチエイリアス処理であってもなくてもよいスクリーンフォントを使用してレンダリングされなければならない
  • アンチエイリアシングスクリーンショットRGBまたはRBGため
  • であってもよく、ベースライン(単にすべての画面Fを見る見つけるために自明であるRGBデシメーション(等ClearTypeの別名別名サブピクセルAA)
  • を使用することができるかどうか
  • 多くのエラーが許容されます(文字認識は100%正確である必要はありません)
  • フォントは基本的には事前にわかっていますが、どのように正確にフォントはレンダリングされません(サイズは不明です、色は不明です、アンチエイリアスのタイプは不明です)。 (各文字が行うことは非常に簡単であるベースラインと「切断」を見つける:基本的に何を知られていること、だから私はそれが「本当の」OCRを行うように複雑としての近くにどこにもありませんと仮定し、非常に一般的なフォント

になるだろうということです私はすでにそれをやった)。

誰も特定の技術や論文、あるいはAPIを知っていますか?

注意:この質問はではなく、のスクリーンスクレイピングについてです。この質問は、ではなく、でCAPTCHAを破ることです。この質問はではありません。通常のOCRについてはです(スキャンされたテキストをOCRする場合など)。この質問は、ではなく、です。GUIオートメーションについて説明しています。

+0

**タグの提案**この問題は、GUI自動化に関するものであれば、gui-automationタグを追加してください。これがあなた自身の開発を計画しているOCRアルゴリズム技術についてのものであれば、アルゴリズムタグを追加してください。この目的のために設計されたオープンソースのOCR実装をお探しの場合は、オープンソースのタグを追加してください。 – rwong

+0

あなたの状況にこの質問に対する回答があるかどうかを確認してください。http://stackoverflow.com/q/896224/377657 – rwong

+0

これで進歩はありましたか?私は同じことをやろうとしていますが、画面上のフォントで文字がまったく同じであることがわかりました。これは便利な機能です。私。 "a"は画面上の異なる位置で "a"と同じように見えます。 – Phil

答えて

1

私は不変の瞬間との良好な経験を持っている(例えば胡瞬間をしていますが、事前に定義された方向性を持っているとして、彼らは、あなたの目的のために少しも onvariant可能性がある) クラスター分析とペア特徴抽出のために(私が本当に良い結果を得ましたマハラノビス距離)。これはまた、Android携帯電話上で動作します

http://sourceforge.net/projects/javaocr/

:あなたは純粋なJavaソリューションに興味がある場合には
は、ここに私たちのSFのプロジェクトです。

(ヘルプは大歓迎です)

+0

+1ありがとうございます...基本的に私は用語を全く知らないので、グーグルがかなり複雑になります。マハラノビスの距離は、明らかにスケール不変であるという点で面白そうです。これがどのように動作するかを説明する他のポインタ(Javaかどうか)を持っていませんか? – SyntaxT3rr0r

+0

スケール不変性は不変の瞬間から来ており、マハルノビス距離はそれとは無関係であり、それはクラスタ解析ドメインからのものです。 SFプロジェクトは私のcontaisの実装のeverzthingと作業アンドロイドのデモで参照してください。 –

0

あなたは13章、ダニエル・グラウプの「人工ニューラルネットワークの原則」(1997)で説明したようにLAMSTARを実装しようとするかもしれません。

それは基本的に含む:

  • 「サブワード」にあなたの「入力」を分割(彼は、画素の配列に画像を分割する例を取り、列ごとにサブワードと行ごとにサブワード)
  • 各サブワードは、さまざまな数のカテゴリで正規化されたサブワードを分類する動的KSOM(Kohonen Self-Organizing Map)に供給されます。
  • 各KSOMはWinner-Take-All分類子で、出力の1つと0他の人のために
  • 次に、outpu非線形活性化関数(例えば、非線形関数)を用いて、「出力層へのリンク重み」と線形結合される。ロジスティック関数)、出力ニューロンの励起は、認識された文字を表すビット列を与えます。

LAMSTARの利点は、すべてがトレーサブルであるということである。

  • あなたはNNは、あなたがそれを養う入力を考慮して見ているかを知ることができ、
  • あなたはNNはそれが見ていると考えるかを知ることができますKSOMによる分類の結果を観察することによって達成される。
  • 特定のK-SOMの重みベクトルを考慮してNNが見たいものを知ることができます
  • リンク重みを比較することによって、NNが本当に重要と考えるもの(および無視するイメージの部分) 。
関連する問題