段落ベクトルモデリングでは、段落をメモリ情報として参照し、目的語を予測するためのコンテキストワードを参照します。私はなぜ段落が目的の単語を予測するのに有益な情報になるのか理解できません。 段落に目的の単語を含める必要がありますか? 1パラグラフベクトルの概念が理にかなっているのはなぜですか?
誰でも私にそれを行う方法の例を教えてもらえますか?ここには何がありますか?段落IDも1つのホット段落ベクトルですか?
たとえば、段落A、B、Cおよび単語a、b、c、d、e、f、gがあります。 Bはabcdefgのシーケンスです。 文書はA + B + C です。この文書を訓練したいと思えば、単語dを予測したいと思います。 入力段落とは何ですか? ウィンドウサイズが7の場合、入力はa、b、c、e、f、gのホットワードベクトルでなければなりません。
ありがとうございます。 –
段落には予測したい単語が含まれていますか? –
このペーパーのパラグラフには、実際にどの単語が含まれているかは考慮されていません。あなたはちょうどn番目の段落を取り、それにランダムなベクトルを割り当てて、このベクトルを訓練します。あなたの場合、3つの段落ベクトルA、B、Cがあり、トレーニング中のN-gramサンプルごとにN-gramが由来する段落ベクトルを使用します。 – piko