Gensimの実装でword2vecとdoc2vecベクトルの関係を理解しようとしています。私のアプリケーションでは、同じラベル(トピック)で複数のドキュメントにタグを付けるので、単語ベクトルを訓練するためにdbow_words = 1を使用して、私のコーパス上でdoc2vecモデルを訓練しています。私は多くの意味を成しているこのようなやり方で、単語と文書のベクトルの間に類似点を得ることができました。 ex。ドキュメントを取得することは言葉の doc2vec_model.docvecs.most_similarに似たラベル(正= [doc2vec_model [「管理」]]、上位N = 50))単語ベクトルと段落ベクトルクエリ
私の質問は、しかしword2vecとdoc2vecベクトル間の類似度を計算する理論的な解釈についてです。同じ次元(d = 200)の同じコーパス上で訓練された場合、単語ベクトルと文書ベクトルを常に比較して、文書ラベルの類似単語または単語の同様の文書ラベルを見つけると仮定することは安全でしょうか。どんな提案/アイデアも大歓迎です。
質問2:私の他の質問は、最終的なword2vecモデルの単語の高頻度/低頻度の影響についてです。 wordAとwordBが文書の特定の文書ラベル(集合)に類似の文脈を有するが、wordAがwordBよりもはるかに高い頻度を有する場合、wordBは対応する文書ラベルとの類似度スコアが高いか否かである。私は時間的にコーパスをサンプリングすることによって複数のword2vecモデルを訓練しようとしており、文脈が比較的類似していると仮定すると、単語がますます頻繁になるという仮説が文書ラベルとの類似度スコアも増加するということを知りたい。私はこの仮定をするのが間違っていますか?どんな提案/アイデアも大歓迎です。
おかげで、ワードベクトルとdoctagベクトルは、互換的に訓練中に使用されるトレーニングモードにおいて のManish