2017-09-04 8 views
-1

私はオブジェクトのグループの長いリストを持っています。各オブジェクトには、名前や説明などの単純なプロパティがあります。それらはすでに類似のオブジェクトでグループ分けされていますが、私はいくつかの方法で重複または重複が多いことを知っています。リストには繰り返しオブジェクトが含まれず、順序は関係ありません。重複するオブジェクトのグループの数を減らす

類似性に基づいて「n」グループに減らす方法の提案はありますか?ありがとうございました。

すなわち文字列

["apple", "orange", "pear"] 
["apple", "steak", "orange"] 
["steak", "burger"] 

のために最初の二つは、最も類似したおよそ

+0

どうやって同様に定義しますか? – Julien

+0

こんにちは、私は、リスト内の同じオブジェクトのセットを持つことによってそれを定義します。それが理にかなっていれば、オブジェクトは単純な文字列または数字として見ることができます。 – user963936

答えて

0

たぶん、あなたは、列の数は、データセット内の個別の単語の数に相当する行列を設定しようとすることができます。行数はデータポイントの数です。次に、項目(i、j)は、サンプルiに単語jが何回出現するかです。

この行列を作成すると、共通のクラスタリングアルゴリズムが動作し、好きなように類似性を定義できます。

関連する問題