2017-07-06 5 views
0

context2で単語を推測するのにword2vecを使用できますか?大きなデータセットを有するモデルを訓練した。 。 Googleニュースどのようにしてword2vecを使用して、文脈だけで類似の単語を予測することができますか?ミズーリ州セントルイスの9人のトップ選手と競い合う」と語った。出力はKasparovまたはCarlsenでなければなりません。word2vec guessing word embeddings

私は類似点しか見ませんでしたが、私はこれをどのように使用するのか理解できませんか?これはword2vecの使い方が意図されたものではありませんか?

答えて

3

word2vecの使用目的ではありません。 word2vecアルゴリズムは、周囲の単語を使用して正確な単語を予測し、周囲の単語に有用なベクトルを学習するためのラウンドアバウト方法として内部的に試みます。

でも、それはトレーニング中に正確な予測を形成していません。それはちょうど1つの狭い訓練の例 - 文脈の言葉と目標単語 - を見て、その一例に準拠させるために非常に簡単な比較と内部の軽快をやっています。時間が経つにつれて、たとえ予測が大きく変化する品質のままであっても、それは有用なベクトルに自己調整されます。

ほとんどのword2vecライブラリは、コンテキスト単語を使用してランク付けされた予測を表示するための直接インターフェイスを提供しません。最後のいくつかのバージョン(2017年7月の現在のバージョン2.2.0)のPython gensimライブラリは、いくつかの訓練モードで、コンテキスト単語を仮定して、モデルが予測するものをおおまかに示す方法を提供しています。参照:

_____, who dominated chess for more than 15 years, will compete against nine top players in St Louis, Missouri 

バニラ:

https://radimrehurek.com/gensim/models/word2vec.html#gensim.models.word2vec.Word2Vec.predict_output_word

しかし、あなたの穴埋めのクエリを考慮すると(また、関連する教育や機械学習の文脈で「穴埋め削除」と呼ばれます) word2vecモデルはその権利を得ることはまずありません。単語の相対的重要性についての感覚はほとんどありません(一部の単語が他の単語をより狭義に予測している場合を除く)。それは、文法/秩序、または連結句の構成上の意味(「支配的」および「チェス」という別個の単語とは対照的に「支配されたチェス」のような意味)を持たない。同じ種類のものを記述する言葉はお互いに近いものですが、空白が「人」と「チェスプレイヤー」でなければならないと判断できるカテゴリを知らず、word2vecのファジィ類似点はありませんクラスの言葉は必ずしもすべてが他の言葉よりももっと近くにあることを保証するものではありません。

このような質問応答タスクをよりうまく支援するために、単語/概念ベクトル(別名「濃密埋め込み」)を訓練する作業がたくさんあります。ランダムな例は"Creating Causal Embeddings for Question Answering with Minimal Supervision"であるかもしれませんが、[word2vec question answering]や[questioning answeringの埋め込み]のようなクエリは、より多くを見つけるでしょう。しかし、私はword2vecのコアの有無にかかわらず、これを行うための簡単なライブラリを知りません。