gensim word2vecを使用して、名前付きエンティティ認識問題で単語をベクトルとして表現するための一連の訴訟ファイルを組み込んだCBOWモデルを構築しましたが、私の言葉の表現。私がwordsim353(NLTK)やGoogleの他のオンラインデータセットのような他のデータセットを使用すると、ファイルの自分のドメインデータセットに固有のモデルを構築したため、動作しません。 word2vecの単語ベクトルの表現を評価するにはどうすればいいですか。同様のコンテキストに属する単語をベクトル空間に近づけたいと思います。特定のコンテキストファイルでword2vecビルドを評価する方法
私はという奇妙なものがと呼ばれる技術を使用して始めました。例:
model.wv.doesnt_match("breakfast cereal dinner lunch".split()) --> 'cereal'
私はcontext.Butのうち、3つの同様の文脈の言葉と奇数ワードを取っての精度を評価word2vec .Startedの訓練中の単語を使用して(検証する)私自身のデータセットを作成しました私のモデルはわずか30%です。
上記の方法は、私のw2vモデルの評価に本当に役立ちますか?それとも良い方法がありますか?
私はword_similarity measureを使いたいと思っていますが、私のモデルを評価するためにリファレンススコア(Human assessed)が必要ですか、それを行う方法はありますか?どうか提案や技術を提案してください。