2016-03-30 17 views
0

与えられた複数のテキストインスタンスの類似性を判断する方法はありますか。複数のテキストブロック間の類似性を判断する

T1 = abcabcabc 
T2 = xyzabcxyzabcxyz 
T3 = abcxyzabc 

類似性のようなものになるだろう:私は、現時点では具体的にすることはできません

*abc*abc* or maybe 66% 

コードが提供されていれば、私はPythonが好きですが、スクリプト言語などは、良いコード、擬似コード、問題解決サイトへの参照などです。

答えて

1

テキスト間の距離を測定する方法はいくつかあります。

詳細はString metricを確認してください。

Levenshtein distanceの実装がpypiにありますが、自分で試してみませんでした。

wiki

上の別の一つはレーベンシュタイン距離を別の文字列を変換するための最小ステップを計算しながら、あなたは2つの文字列の類似性パーセントを取得するためにstep/len(string)を使用することがあります。

関連する問題