2016-10-18 8 views
0

私はデータ要素のクラスタに分割されたデータセットを持っています。これらのデータセットはすべて1つのエンティティを表すものとします。各データ要素は、名前、電話番号などの変数で構成され、同じ人物を表すと考えられるのでグループ化されています。私はそれらがどのようにクラスタ化されているかについての情報を持っていませんが、私は各データ要素に関する利用可能なすべての情報を持っています。クラスタ内でparadigm/master/archetypeを見つけよう

各クラスタの最も代表的なデータ要素を見積もりたいと思います。私はクラスター分析に慣れていませんが、 "セントロイド"または "メイドイド"の識別はクラスタリングアルゴリズムの段階で行われ、後には行われません。誰も私がクラスターの要素がクラスタ化された後、各クラスターのマスター/アーキタイプ/パラダイムデータ要素をどのように見積もることができるかを指摘できますか?クラスタリングが発生した後に要素がクラスタに含まれているかどうかを判断するために、どのルールが最も重要かを判断する方法はありますか。任意のすべてのアドバイスをいただければ幸いです!

答えて

0

このようなオブジェクトは、データによってはあまり良くないかもしれないことに注意してください。 someokeがクラスター{"Apple"、 "apple"、 "banana"、 "Banana"}を与えた場合、どのオブジェクトを選択しますか?

スリー人気のある選択肢:

  • モード、最も頻繁に。
  • メドイド、他
  • ミニマックスから最小平均距離持つオブジェクト、他

敵モードから最小最大距離持つオブジェクト、数量情報が必要です。私。 「アップル」の10倍、「アピール」の2倍の場合は、より頻繁に使用することを選択します。

非常に距離関数(または類似関数)が必要です。あなたの属性が異なるタイプの場合、これは非常に難しいでしょう。しかし、 "apple"、 "appel"、 "aple"、 "aaple"というスペルミスの文字列が1つしかない場合、正しいスペルは他の文字との距離が最小になる可能性があります。しかし、あまり距離を選ぶと結果は悪くなります。

関連する問題