ファジー文字列一致

一部の画像で光学式文字認識を実行した後、おおよその文字が表示されます。しばしば認識はあまり良くありません。たとえば、実際のテキスト「DATE」は「DHTE」または「0HTE」となります。基本的に私は、各行のデータを識別して抽出する必要があるので、完全に認識する必要はなく、日付行を特定するだけで十分です。私はLevenshtein編集距離を計算しようとしましたが、残念ながらこれはDATEとTIMEの値が似ている傾向があります。現時点では、代わりに正規表現を使用してデータパターンを照合できるかどうかを調べようとしています。ファジー文字列一致

マッチングプロセスを改善する方法/アルゴリズムはありますか？幸いにも、私の言葉はあまり大きくありません。

出典

2011-07-10 aldrin

この1つは、いくつかのかなりクールなアルゴリズム http://secondstring.sourceforge.net/

これはのStringUtilsで基本的なものであるがあります（私はアルゴリズムのためのOCRとGroovy/Java用たTesseractを使用しています） levenstein distance

出典

2011-07-10 09:07:19 Pablo

答えて

関連する問題