0

私は類似性の指標(Jaccard Indexのようなもの)を探していますが、セット内のオブジェクト間の既知の類似点を使用し、アイテムの存在量によって接続を評価します。これらの既知の類似点は、0と1との間のスコアであり、1は完全一致を示す。既知のアイテムの類似性と豊富さを持つ類似度の測定

例えば、二組の検討:
SET1 {A、B、C}とSET2 {Aを 'B'、C '}

Iは
{A、Aことを知っています'}、{ B、B '}、{C、C'}はそれぞれ0.9のアイテム類似性を有する。したがって、私はSET1とSET2の類似性が比較的高いと予想します。

別の例は、次のようになります。SET1 {、B、C}とSET2 {、B 'C'、D、E、F、...、Z}二組を考えます。最初の3つの項目の一致は最初の例よりも高いですが、(Jaccardのように)サイズの差のためにこのスコアは低くなるはずです。

もう1つの問題は、重量として重さを使用する方法ですが、これを解決する方法はわかりません。

一般に、このアイテムの類似性と豊富さを考慮した正規化された類似類似度が必要です。

答えて

1

私が間違っている場合は私を修正してください。クラスタリングエラーが類似性の基準として必要です。それは、クラスタの最適なマッチングの後、A 'とAにおいて異なるクラスタリングされた点の割合である。換言すれば、混乱行列の非対角要素の尺度和は であり、行と列のすべての可能な置換にわたって最小化されるのは である。それはハンガリーのアルゴリズムを使用して高い計算コストを回避し、セット内の異なる数の要素に不利益を与える。

+0

クイックフォローアップ:ここでは何をクラスタリングしますか?私が読むことができる文献はどれですか?アイテムは複数のセットで表示されます。 –

+1

通常、教師なし学習(クラスタリング)を使用している場合、モデルからの出力はラベルのセットであり、これらの予測されたラベルを正しいものと一致させる必要があります。グラウンド・トゥルースが[A、A、B]で、モデルの出力が[1,1,2]の場合、CEが0でモデルが十分に頑丈であることを意味します。 –

+1

クラスタリング自体に関連するものは何もなく、単に類似性の尺度として適用されています。複数のセットがある場合は、各セットの組み合わせのCEを組み合わせることができます。 Search for:Anne Patrikainenによる部分空間クラスタリングの比較方法[http://cis.legacy.ics.tkk.fi/annep/lisuri.pdf] –