2017-06-30 3 views
-1

これは本当に新しいですが、私はこれを行うためにK-meansを探していると思います。タグをk-meansのカテゴリにクラスタ化する

タグが付いたオブジェクトがたくさんあります(多数)。他の機能のどれも重要ではありません。同様のオブジェクトには類似のタグがあり、それらを「カテゴリ」にグループ化することができます。私はこれらのカテゴリが何であるかを知りたいです(k-meansを使用していますか?)。タグのように見える...

[u'taste 'u'healthy'、u'recipe 'u'vietnam'、u'egg 'u'soup'、...]

[u'kid '、u'taste'、u'healthy '、u'school'、u'recipe '、u'family' ...]

[u'diet '、u'tongue'、 u'bealth '、u'hair'、...]

[u'workout '、u'athens'、u'phenzino '、u'henya'、u'weight '、u] 'loss'、...]

k-meansを使用するときの文字列のリストはありますか?順序は関係ありません。私は結果がタグのクラスター化されたグループを戻すことができると期待していますか?それはどういう仕組みですか?ありがとうございました!!

答えて

1

K平均は分散最小化に基づいています。

平均値からの偏差の平方和を最小にしようとします。

このため、平均値を計算できる連続数値変数でのみ機能します。

人々は他のデータを0,1ベクトルとして埋め込みようとしましたが、通常は結果がかなり悪く、結果をうまく解釈できません。

「平均値」は、あなたの仕事にとって非常に適したモデルではありません。多分頻繁なアイテムセットを見てください(またはあなたの場合:頻繁なタグセット)

関連する問題