重複するオブジェクトのグループの数を減らす

-1

私はオブジェクトのグループの長いリストを持っています。各オブジェクトには、名前や説明などの単純なプロパティがあります。それらはすでに類似のオブジェクトでグループ分けされていますが、私はいくつかの方法で重複または重複が多いことを知っています。リストには繰り返しオブジェクトが含まれず、順序は関係ありません。重複するオブジェクトのグループの数を減らす

類似性に基づいて「n」グループに減らす方法の提案はありますか？ありがとうございました。

すなわち文字列

["apple", "orange", "pear"] 
["apple", "steak", "orange"] 
["steak", "burger"]

のために最初の二つは、最も類似したおよそ

出典

2017-09-04 user963936

どうやって同様に定義しますか？ – Julien

こんにちは、私は、リスト内の同じオブジェクトのセットを持つことによってそれを定義します。それが理にかなっていれば、オブジェクトは単純な文字列または数字として見ることができます。 – user963936

たぶん、あなたは、列の数は、データセット内の個別の単語の数に相当する行列を設定しようとすることができます。行数はデータポイントの数です。次に、項目（i、j）は、サンプルiに単語jが何回出現するかです。

この行列を作成すると、共通のクラスタリングアルゴリズムが動作し、好きなように類似性を定義できます。

出典

2017-09-05 04:12:49 yulunz

重複するオブジェクトのグループの数を減らす

答えて

関連する問題