sparkのドキュメントページの例に従って、word2vec、linkを使用しました。それは機能しましたが、私はそれが何を計算しようとしているのかよく分かりませんでした。spark word2vecの例の説明と文字列の類似性を取得する方法
出力ベクトルは出力文字列表現ですか?
「はい」の場合は、それらの間のコサインの類似度を計算しようとしましたが、ベクトルが正ではないため、負の値があります。
word2vecをスパークさせると、陽性のみのベクターができますか?
Spark word2vecを使用して文字列のリスト間の類似度を計算する方法はありますか?
'' 'transform()' '' 'は単語のベクトル表現を平均した文のベクトル表現を返します。センテンス間の類似度を計算するコサインの類似度の平均化は意味がありますか?あるいは、密ベクトル表現を使用する別の類似性測度を見つけるのがより理にかなっていますか? – LonsomeHell
平均はコサイン類似点ではありません。本質的にSentenceVector =その文を構成するすべての単語のベクトル表現の平均...ベクトルとしての単語の表現は、モデルが学習するものです。文の類似性モデルによって出力されたベクトルの間に余弦を見つける必要があります。 – sourabh