私は、tesseractを使って多くの自動化されたOCRを実行するようにサーバーを設定しています。結果の後処理をいくつか行いたいと思います。基本的なOCR後処理(スペルチェック)
理論的にはこれに関する多くのリソースがありますが、実用面ではそれほど多くは見つかりませんでした。
私は同じように、あなたが行うことができますいくつかの基本的なものがあると想像:母音
- する行
- における3つの同じ文字を排除排除の言葉「長い言葉」を排除一定の長さより
- 等
私はこの思考のトン与えられていないが、OCR'edテキストがに供給されます検索システムなので、wordmapを小さく保つことは、明らかに間違っている単語を削除したり修正したりするのと同様に、良いことです。
重要であれば、内容自体は英語で書かれた裁判所の文書です。だから、時々適切な名前がありますが、言葉の多様性はおそらく巨大ではなく、おそらくフォントはかなり安定しているでしょう。
私が知っておくべき指針や良いリソースはありますか?
私は政府のウェブサイトから文書を入手するため、スキャンプロセスを管理する権限がありません。第2のOCRエンジンを使用することは、パフォーマンスが問題になるため、おそらくそれほど良いものではありません。 – mlissner