私は類似の文章を見つけるためにword2vec/doc2vecを適用しようとしています。まず単語の類似性についてword2vecを考えてみましょう。私が理解しているところでは、CBOWは文脈の中で最も適切な単語を見つけるのに使うことができますが、Skip-gramはある単語の文脈を見つけるために使われるので、どちらの場合でも頻繁に共起する単語が得られます。しかし、それと似た言葉を見つけるにはどうすればいいですか?私の直感は、同様の文脈で類似の語が出現する傾向があるため、文脈/共起語間の類似性から単語類似度を実際に測定します。ニューラルネットでは、隠れ層のある単語のベクトル表現を出力層に通すと、共起する単語の確率が出力される。したがって、共起する単語はいくつかの単語のベクトルに影響を及ぼし、同様の単語は類似した共起する単語の集合を有するので、それらのベクトル表現も同様である。類似性を見つけるために、各単語の隠れた層の重み(またはベクトル)を抽出し、それらの類似性を測定する必要があります。私はそれを正しく理解していますか?単語の類似性のための単語埋め込みはどのように機能しますか?
最後に、word2vec/doc2vecを使用してツイートテキスト(完全な文)の類似性を見つける良い方法はありますか?
[DataScience.SE](https://datascience.stackexchange.com/) – smci