類似した文字列のリストがあるとします。これらすべての文字列の共通部分または特徴を理解したいと思います。与えられたセット内のすべての文字列に最もよく似た文字列を見つけ出す既知の方法はありますか?そのセットに属していませんか?例えば文字列のセットとの編集距離が最も短い最短文字列
、私は次のように設定した場合:
Hello
Hell
Help
Hepl
を 'ヘル' は2,1,1,1のレーベンシュタイン距離を提供します。現在、私は基底として異なる部分文字列を取って、距離を計算することを考えています(私の集合はかなり小さいので、ブルートフォースは問題にならないでしょう)が、この解決法は文字列の本質的に部分文字列ではない最も最適な解(解が2つの部分文字列の共役のような場合)かもしれません。
この点についてご迷惑をお掛けしたいと思います。
私はこれをコーディングするためになかったが、[JARO-ウィンクラー距離]たことがない(https://en.wikipedia.org/wiki/Jaro%E2%80% 93Winkler_distance) –
前者が1,1,1,1の距離を与えるので、「地獄」は「Hel」より優れています。 – user31264
フラット・レター・マトリックス(?)を使用し、ギャップ・ペナルティーを加えてフィーリングしたクラスター・アルゴリズムを使用して、複数のアライメントを試してください。 –