レコード結合プロジェクトに取り組んでいます。 我々はJAROウィンクラー、レーベンシュタイン、N-グラム、Damerau-レーベンシュタイン、ジャカードインデックスのような標準的な技術のすべて、ソレンセンダイス文字列類似性を使用したレコード結合
セイ、 文字列1 = MINIグラインダーKIT
文字列2からの奇妙な行動を観察しています= Weiler 13001小型グラインダアクセサリキット
ストリング3 =回転検査範囲:M-SPECTOR 360、2.7 in 640 x 480ピクセル高解像度LCD、プラスチック、黒/赤
上記の場合、文字列1と文字列2は、以下に示すすべてのメソッドのスコアに関連しています。
JAROウィンクラー - > 0.391666651
レーベンシュタイン - > 75
Nグラム - > 0.9375
Damerau - > 75
ジャカードインデックス - > 0
ソレンセンダイス - > 0
コサイン - > 0
しかし、文字列1と文字列3はまったく関連していませんが、距離メソッドは非常に高いスコアを与えています。
JAROウィンクラー - > 0.435714275
レーベンシュタイン - > 133
Nグラム - > 0.953571439
Damerau - > 133
ジャカードインデックス - > 1
ソレンセンダイス - > 0
コサイン - > 0