私は、制御されたボキャブラリのリストを持っています。例えば、term1、term2、termN ..ドキュメントは1つ以上の制御されたボキャブラリを持つことができます。制御されたボキャブラリに基づくドキュメントの類似度
統制されたボキャブラリは、Term1、Term2、Term3、Term4、Term5、Term6です。
- ドク1(4つの規約):TERM1、TERM2、term5、term6
- ドック2つの(用語):TERM2、term5
オプション1: ジャカードのアプローチは、2つのデータを見したがって、両方の値が1に等しい事象を設定し、発見する。したがって、文書の制御された用語(用語1-6)の存在をバイナリベクトル1,0に変換することができる。次いで、(http://docs.scipy.org/doc/scipy-0.17.0/reference/generated/scipy.spatial.distance.jaccard.html)ジャカードに基づいて類似度を計算
- いるDoc1:{1,1,0,0,1,1}
- Doc2の:{0,1,0,0,1,0}
オプション2 - 統制語彙に基づいて文書間の類似度を計算するのに適している尺度は、これらのオプション(あるいは他の類似性尺度)のうちhttp://brandonrose.org/clustering
とTF-IDFに基づく余弦類似度を使用するのか?私はデータマイニングに新しいです、任意の提案は高く評価されます。