1
一部の画像で光学式文字認識を実行した後、おおよその文字が表示されます。しばしば認識はあまり良くありません。たとえば、実際のテキスト「DATE」は「DHTE」または「0HTE」となります。基本的に私は、各行のデータを識別して抽出する必要があるので、完全に認識する必要はなく、日付行を特定するだけで十分です。私はLevenshtein編集距離を計算しようとしましたが、残念ながらこれはDATEとTIMEの値が似ている傾向があります。現時点では、代わりに正規表現を使用してデータパターンを照合できるかどうかを調べようとしています。ファジー文字列一致
マッチングプロセスを改善する方法/アルゴリズムはありますか?幸いにも、私の言葉はあまり大きくありません。