私は文字列の配列を持っており、それらをクラスターにソートする必要があるとしましょう。テキスト文字列の類似度を計算する方法は?
クラスタ1:私は現在、nグラム、例えば使用して分析をしています
- パイプパイプについて、ラスベガスで
- 作品を固定
- パイプを固定する固定を
クラスタ2:
- クラシック音楽
- クラシック音楽が
- 素晴らしいですなぜクラシック音楽は何
など
私は、これらの2つの文字列を持っているのは、この配列内ましょうテキスト(その他):
彼らは同じトークン化構造を共有していないよう日本から
- 日本人学生
- 学生は今、N-gram方式は、明らかに、一緒にこれらの2つの文字列を入れていないだろう。私はDamerau-Levenshteinの距離計算とTF/IDFを使ってみましたが、両方ともあまりにも多くの外部ノイズを取得します。これらの2つの文字列が単一のクラスタ内に属していることを理解するために使用できる他のテクニックはどれですか?
は、おかげでこの1を試します –