2016-05-16 9 views
1

私は、制御されたボキャブラリのリストを持っています。例えば、term1、term2、termN ..ドキュメントは1つ以上の制御されたボキャブラリを持つことができます。制御されたボキャブラリに基づくドキュメントの類似度

統制されたボキャブラリは、Term1、Term2、Term3、Term4、Term5、Term6です。

  1. ドク1(4つの規約):TERM1、TERM2、term5、term6
  2. ドック2つの(用語):TERM2、term5

オプション1: ジャカードのアプローチは、2つのデータを見したがって、両方の値が1に等しい事象を設定し、発見する。したがって、文書の制御された用語(用語1-6)の存在をバイナリベクトル1,0に変換することができる。次いで、(http://docs.scipy.org/doc/scipy-0.17.0/reference/generated/scipy.spatial.distance.jaccard.html)ジャカードに基づいて類似度を計算

  • いるDoc1:{1,1,0,0,1,1}
  • Doc2の:{0,1,0,0,1,0}

オプション2 - 統制語彙に基づいて文書間の類似度を計算するのに適している尺度は、これらのオプション(あるいは他の類似性尺度)のうちhttp://brandonrose.org/clustering

とTF-IDFに基づく余弦類似度を使用するのか?私はデータマイニングに新しいです、任意の提案は高く評価されます。

答えて

-1

私は答えを残すようにコメントを残すことはできません。私は似ているが、Rで何かをする、そして見つけるこの便利

http://text2vec.org/similarity.html#cosine_similarity 

「正しい答え」があれば、私は知りません。私はさまざまなアプローチを試して、人間の判断に最も似た答えが得られるかどうかを見ていきます。私は "ユークリッド距離"が最も良いかもしれないと思いますが、それがあなたに利用可能かどうかはわかりません。 I

関連する問題