2017-11-01 18 views
2

単語の多くの恋人(少なくとも数百)の間の構造的/階層的な意味的距離のためのラベル付けされたデータ(人間の判断)が必要です。言葉の意味的な意味的距離

たとえば、d(コンピュータ、テレビ)< d(ラジオ、テレビ)< d(食器洗い機、テレビ)。

各ノードがカテゴリ(「電気装置」、「画面あり」など)である樹状図またはツリー内のすべての単語を編成し、単語が葉にある場合、数字は数字1つの単語から別の単語に移動する必要があるステップ(ノード)の数です。

このようなデータセットは存在しますか?

コンピュータテレビ1

ラジオテレビ2

食器洗い機テレビ3

:カップル定格あたり は、(例えば、データセットがなり、フルの埋込み/ツリー/ノード を指定する必要がありする必要は十分ではありません

ありがとう!

答えて

1

私は今、このような人間の判断のデータセットを認識してんだけど、私はあなたのようsemantic networksで見ることができると思いますWordNet英語の語彙データベースで、グラフ形式です。与えられた2つの単語、WordNetでそれらを表すノード間の距離を計算することができます。

名詞と動詞の両方は、 上位語またはIS Aの関係で定義された階層に編成されています。例えば、単語 の1つの意味は、上位の階層に続いて見いだされます。同じレベルの単語 はsynsetメンバーを表します。同義語の各セットには一意のインデックスがあります。

dog, domestic dog, Canis familiaris 
canine, canid 
    carnivore 
    placental, placental mammal, eutherian, eutherian mammal 
    mammal 
    vertebrate, craniate 
     chordate 
     animal, animate being, beast, brute, creature, fauna 
     ... 

あなたがデータセットを探しているなら、あなたはまたhereを求めることができます。

+0

データセットrefのおかげで、それを知らなかった。私はそこに尋ねます。私はWordNetに精通していますが、手作業で定義されていて、正確ではない定義がいくつかあります。私はword2vec距離でWordNetを使用したいが、そのために私は人間の判断データをラベルとして使用したい。 – oren