私は、一連のユーザーとそのコンテンツを持っています(そのユーザーのツイートが入っている1つのドキュメント)。私は、各ユーザにある程度の大きさの分散ベクトル表現を使用する予定です。 1つの方法は、事前に訓練されたワードベクトルをツイッターデータに乗せて平均し、ユーザーの分散ベクトルを得ることです。私はで与えられたDMモデルを理解すれば、よりよい結果のためにdoc2vecを使用する予定です。しかし、私は確信していません。新しい段落の段落ベクトルを取得する方法は?
私は、段落ごとに1つのベクトルを割り当て、次の単語を予測しながら、それを逆伝播して段落ベクトルと単語ベクトルを更新することを理解します。これを使って新しい段落の段落ベクトルを予測する方法は?
編集:新しい文書の段落ベクトルを計算するためのgensimの任意のおもちゃコードが評価されます。
doc2vecモデルでは、quoraのトレーニングと予測についてよく説明しています。https://www.quora.com/How-does-doc2vec-represent-feature-vector-of-a-document-Can-anyone -explain-数学的 - how-the-process-is-done –