2016-11-07 12 views
0

Gensimの実装でword2vecとdoc2vecベクトルの関係を理解し​​ようとしています。私のアプリケーションでは、同じラベル(トピック)で複数のドキュメントにタグを付けるので、単語ベクトルを訓練するためにdbow_words = 1を使用して、私のコーパス上でdoc2vecモデルを訓練しています。私は多くの意味を成しているこのようなやり方で、単語と文書のベクトルの間に類似点を得ることができました。 ex。ドキュメントを取得することは言葉の doc2vec_model.docvecs.most_similarに似たラベル(正= [doc2vec_model [「管理」]]、上位N = 50))単語ベクトルと段落ベクトルクエリ

私の質問は、しかしword2vecとdoc2vecベクトル間の類似度を計算する理論的な解釈についてです。同じ次元(d = 200)の同じコーパス上で訓練された場合、単語ベクトルと文書ベクトルを常に比較して、文書ラベルの類似単語または単語の同様の文書ラベルを​​見つけると仮定することは安全でしょうか。どんな提案/アイデアも大歓迎です。

質問2:私の他の質問は、最終的なword2vecモデルの単語の高頻度/低頻度の影響についてです。 wordAとwordBが文書の特定の文書ラベル(集合)に類似の文脈を有するが、wordAがwordBよりもはるかに高い頻度を有する場合、wordBは対応する文書ラベルとの類似度スコアが高いか否かである。私は時間的にコーパスをサンプリングすることによって複数のword2vecモデルを訓練しようとしており、文脈が比較的類似していると仮定すると、単語がますます頻繁になるという仮説が文書ラベルとの類似度スコアも増加するということを知りたい。私はこの仮定をするのが間違っていますか?どんな提案/アイデアも大歓迎です。

おかげで、ワードベクトルとdoctagベクトルは、互換的に訓練中に使用されるトレーニングモードにおいて のManish

答えて

0

は、同じ周囲ワード予測タスクのために、それらは有意義匹敵する傾向があります。 (あなたのモード、インターリーブされたスキップグラムの単語訓練のあるDBOWは、これに合っており、 'Document Embedding with Paragraph Vectors'の論文で使われているモードです)。

2番目の質問は抽象的で投機的です。私はあなたがそれらのアイデアを自分でテストしなければならないと思います。 Word2Vec/Doc2Vecプロセスは、モデルの制約と他のベクトルの品質とのトレードオフを条件として、特定の機械語の予測タスクに適したベクトルを訓練します。結果として得られる空間的配置が、他の目的、すなわち、ランク/絶対類似性、ある概念的な線に沿った類似性、分類などに有用であることは、観察され、実用的な利益に過ぎない。それは「動作するトリック」であり、洞察力をもたらすかもしれませんが、さまざまなパラメータの選択やコーパスの特性に応じてモデルが変化する方法の多くは、理論的または実験的には解決されていません。

関連する問題