1
私は約1000万の出版物タイトルを持つmysqlデータベースを持っています。 新しいタイトルを追加したいときは、そのタイトルはすでに存在していますが、少し異なるようです。 一つの例:私は正確にそれらを一致させるためにしようとしている場合n個の文字列の間の文字列類似メトリック
Overview on +-Trees....
Overview on B-Tree .....
Overview on $({\rm B}^+)$-Trees....
全3タイトルは、異なっているが、それらは同じマニュアルを参照してください。
今、私は類似性の計算にlevenshteinのようなものを使うことができました。 しかし、1000万以上のタイトルでは、各距離の計算に時間がかかりすぎる可能性があります。
私が考えていたのは、すべての文字列に事前計算として適用できるメトリックがあるかどうかでした。 たとえば、単語の長さを計算して、同じ単語長のタイトルのみを集めるようにします。目標は、10万から100,000以下のレベンション比較の量を減らすことです。