0
私は〜5M スペイン語の記事でGloVeを訓練しました。私はこのGloVeをgensimにロードし、それがword2vecモデルであるかのように使用する方法を知っています。 私は話題のモデル化とニュース記事からのキーワード抽出の問題に直面しています(スペイン語でも)ので、訓練を受けたモデルをどのように使用すればいいのでしょうか?訓練されたGloVe/word2vecモデルを使用して記事からキーワードを抽出するにはどうすればよいですか?
どうすればいいですか?
しかし、word2vecでテキストを表現するにはどうすればよいですか? word2vecはテキストではなく単語を表します。私は正しい? – hipoglucido
これは問題によって異なります。テキストはすべて(またはほとんど)単語なので、テキストの中のいくつか(またはすべて)の単語を選択してword2vec表現を作成する必要があります。これはword2vecから得られるベクトルの合計と同じくらい簡単です。コサインの類似性や他の指標を使って、そのベクトル(例えば)とあなたのラベル付けされたトピックから得られたベクトルを比較することができます。 – ozborn
しかし、それらを合計すると、長いテキストのベクトルは、類似の単語を使用していてもその意味が同じであっても、短いベクトルと潜在的に異なるものになります。別の変換を使うべきではありませんか?テキストのすべての単語から平均を取るのはどうですか?どうもありがとう。 – hipoglucido