sequencematcher

    5

    2答えて

    私は類似性のために一致させたい文字列がたくさんあります(各文字列は平均30文字です)。私はdifflib'sSequenceMatcherがシンプルで結果が良好であったため、この作業には最適であることがわかりました。私は >>> sm=SequenceMatcher(lambda x:x=='-','hellboy','hell-boy') >>> sm.ratio() 0: 0.933333

    1

    1答えて

    OCRのプロジェクトでスペイン語で働いています。カメラは1行のテキスト内の異なるフレームをキャプチャします。テキストの行には、次の情報が含まれています。 エステテキスト、エスペラント、プルーバデルディスポジティボレクターパラノーヴィデデス。 一部の操作は、私はそのような文字列を取得した後: s1 = "Este texto, es una p!" s2 = "fste texto, es una

    0

    1答えて

    2つの名前のセットが2つあります。「近いもの」の一致が見つからない場合は、名前を自分自身に一致させます。 私の現在のアプローチは、すべての可能な組み合わせでデータフレームを作成し、それを反復処理してSequenceMatcher(smとしてインポート)経由で類似率を計算するために.applyまたはリストを使用することです。 問題は、両方のリストに数千の名前があるため、実行時間が非常に長くなります。