2016-07-21 11 views
0

私は〜5M スペイン語の記事でGloVeを訓練しました。私はこのGloVeをgensimにロードし、それがword2vecモデルであるかのように使用する方法を知っています。 私は話題のモデル化とニュース記事からのキーワード抽出の問題に直面しています(スペイン語でも)ので、訓練を受けたモデルをどのように使用すればいいのでしょうか?訓練されたGloVe/word2vecモデルを使用して記事からキーワードを抽出するにはどうすればよいですか?

どうすればいいですか?

答えて

1

word2vecモデルの使い方についてのご質問は非常に一般的ですので、私の答えも同様です。

word2vecでできることは、一般的に「より良い」表現を提供することです。おそらく、あなたがトピックモデリングの機能として "単語の袋"を使用している場合、word2vecの "単語ベクトルのバッグ"と置き換えて、うまくいけば意味の類似性を高めることができます。多分、より良いキーワード。

+0

しかし、word2vecでテキストを表現するにはどうすればよいですか? word2vecはテキストではなく単語を表します。私は正しい? – hipoglucido

+1

これは問題によって異なります。テキストはすべて(またはほとんど)単語なので、テキストの中のいくつか(またはすべて)の単語を選択してword2vec表現を作成する必要があります。これはword2vecから得られるベクトルの合計と同じくらい簡単です。コサインの類似性や他の指標を使って、そのベクトル(例えば)とあなたのラベル付けされたトピックから得られたベクトルを比較することができます。 – ozborn

+0

しかし、それらを合計すると、長いテキストのベクトルは、類似の単語を使用していてもその意味が同じであっても、短いベクトルと潜在的に異なるものになります。別の変換を使うべきではありませんか?テキストのすべての単語から平均を取るのはどうですか?どうもありがとう。 – hipoglucido

関連する問題