2012-01-24 11 views
4

私は、tesseractを使って多くの自動化されたOCRを実行するようにサーバーを設定しています。結果の後処理をいくつか行いたいと思います。基本的なOCR後処理(スペルチェック)

理論的にはこれに関する多くのリソースがありますが、実用面ではそれほど多くは見つかりませんでした。

私は同じように、あなたが行うことができますいくつかの基本的なものがあると想像:母音

  • のすべてと

    • する行
    • における3つの同じ文字を排除排除の言葉「長い言葉」を排除一定の長さより

    私はこの思考のトン与えられていないが、OCR'edテキストがに供給されます検索システムなので、wordmapを小さく保つことは、明らかに間違っている単語を削除したり修正したりするのと同様に、良いことです。

    重要であれば、内容自体は英語で書かれた裁判所の文書です。だから、時々適切な名前がありますが、言葉の多様性はおそらく巨大ではなく、おそらくフォントはかなり安定しているでしょう。

    私が知っておくべき指針や良いリソースはありますか?

  • 答えて

    0

    各OCRエンジンには、文書内のフォント、スキャンの品質、使用されたdpi、カラー背景、デスキュークリーン、スキュー補正などの使用されるイメージ前処理、ライン除去。多くのテスト実行を実行し、共通のエラーセットを探す結果を分析することによって、これらのエラーの内容を知ることができます。

    正しいスキャナ設定と画像前処理アルゴリズムを使用すると、OCR結果が大幅に改善されます。この部分を過小評価しないでください。

    テキストが主に英語の単語の場合、ファジータイプの検索システムを備えた良い辞書が非常に役立ちます。他の有用な技術は、第2のOCRエンジンによるトライグラム分析および投票である。

    +0

    私は政府のウェブサイトから文書を入手するため、スキャンプロセスを管理する権限がありません。第2のOCRエンジンを使用することは、パフォーマンスが問題になるため、おそらくそれほど良いものではありません。 – mlissner

    関連する問題