2016-12-29 23 views
1

2つの文の間の類似度を計算しようとしているので、2つの単語があり、それぞれが文を表し、2つの単語を受け取り、それらの間の類似性を返す関数(F)方法.. 画像1においてImage 12つのベクトル間の類似度を測定

、黒丸は、文Aの言葉であり、赤四角は2つのワードを受信するたびに関数(F)について文B. を表し、それは0.0の間の値を返します例えば1.0の場合、Aの最初の単語とBの3番目の単語の類似度は0.3です。 私は2つの文の順序が同じでないことが多く、単語の数も多いため、M×Nの比較を使用しました。

私の質問は以下のとおりです。すべてのM×N個の比較スコアを取得した後

  1. 、どのように私は2つの 文章やリストの類似性を示して0.0〜1.0の最終 のスコアを得ることができますか? ""という2つの文章の長さが常に と等しいので、 "となります。

  2. このアプローチが正しくない場合は、代替手段はありますか?

+1

興味深い。どうやって同様の定義をしましたか? –

+0

私はあなたが何をしようとしているのかがはっきりしているとは思わない。類似性スコアの行列がありますか?私はM×Nの比較がどういう意味か分かりません。いくつかの「類似性」トピックまたは数学に関する質問はありますか?たぶん、 "類似性"の経験が不足している人々は、依然として支援を提供することができます。 –

+0

@NickZiebert、意味論的にオントロジーの最短経路を使用します。 –

答えて

0

私は次のように上記のチャートのスコアを持っている:

1 - 私は2つのリストを取得すると、短い方が左側になります。

2 - 左側の各単語について、max(この例では1.0)を抽出し、右側の単語の数で除算して単語のスコアを得ました。

3最後に、最終スコアを得るために単語のスコアを合計し、次にそれを左側の単語の数で割ります。 (1 + 0.8)/ 2 = 0.4

このタイプの計算は、各単語が上記のZEROの関係を持つことができるので、関係の性質に依存しますが、各単語がZEROと他の関係最終的な得点を最終ステップの単語の数で除算するべきではありません。

関連する問題