2017-01-25 10 views
2

レコード結合プロジェクトに取り組んでいます。 我々はJAROウィンクラー、レーベンシュタイン、N-グラム、Damerau-レーベンシュタイン、ジャカードインデックスのような標準的な技術のすべて、ソレンセンダイス文字列類似性を使用したレコード結合

セイ、 文字列1 = MINIグラインダーKIT
文字列2からの奇妙な行動を観察しています= Weiler 13001小型グラインダアクセサリキット
ストリング3 =回転検査範囲:M-SPECTOR 360、2.7 in 640 x 480ピクセル高解像度LCD、プラスチック、黒/赤

上記の場合、文字列1と文字列2は、以下に示すすべてのメソッドのスコアに関連しています。
JAROウィンクラー - > 0.391666651
レーベンシュタイン - > 75
Nグラム - > 0.9375
Damerau - > 75
ジャカードインデックス - > 0
ソレンセンダイス - > 0
コサイン - > 0

しかし、文字列1と文字列3はまったく関連していませんが、距離メソッドは非常に高いスコアを与えています。
JAROウィンクラー - > 0.435714275
レーベンシュタイン - > 133
Nグラム - > 0.953571439
Damerau - > 133
ジャカードインデックス - > 1
ソレンセンダイス - > 0
コサイン - > 0

答えて

1

すべての距離計算スコアは大文字と小文字が区別されます。それゆえ、それらのすべてを同じ事件に持ち込む。次にスコア計算を適切に表示します。

0

あなたの目標は、2つの製品が同じかどうかを確認することです。データは、私が推測するように、さまざまな形をしています。このようなデータの場合、比較する価値のある最も重要な言葉が何であるかを知る必要があります。ブランド名、仕様など...

これらのメトリックは、類似性の非常に粗い概念に従います。そのようなデータをフィードするだけではありません。

最初にきれいにして(句読点、重要でない単語を削除する)、トークン化(1つの単語の文章を壊す)してください。fuzzywuzzyを使用してより良い一致を見つけることができます。

関連する問題