2017-10-25 21 views
0

私はword2vecモデルを持っていて、すべての単語を列車とテストセットに埋め込むために使用します。しかし、適切な言葉では、word2vecモデルには含まれていません。そして、すべての適切な単語の埋め込みとしてベクトルをランダム化できますか? できる場合は、私にいくつかのヒントといくつかの論文を参考にしてください。 ありがとうございます単語埋め込みの単語が欠けています

答えて

0

あなたが求めていることは明確ではありません。特に「正しい言葉」とは何を意味しますか?

しかし、トレーニングの後、あなたがモデルであることを期待言葉がモデルになっていない、それは通常のいずれかによって引き起こされている場合:

(1)あなたが/前処理方法に問題があなたのコーパスをトークン化、あなたが提供したと思った言葉はそうではありませんでした。そこで、どのデータをトレーニングに渡すかをもう一度確認してください。

(2)パラメータと期待値のミスマッチ。たとえば、min_countが5(デフォルトのword2vecライブラリ)のトレーニングを実行する場合、5回未満の単語は無視され、ワー​​ドベクトルは受信されません。 (これは通常、低頻度の単語が自分自身にとって良い単語ベクトルを得ることはできないが、他の単語とインターリーブされることによって他の単語の訓練に軽度に干渉することができるので、全体的な単語ベクトル品質にとっては良いことである)

通常、入力を二重化し、問題の疑いのある指標を記録して監視し、訓練後のモデルに含まれていることを慎重に調べることで、何がうまくいかなかったかを推測することができます。

+0

私が思うに、質問の著者は、事前に単語を埋め込んだニュースをAmazonで販売している商品のようなデータに適用すると、事前に埋め込まれた埋め込みには欠けている多くの単語はどうなるでしょうか? – neurite

+1

未知語を無視する方がよいでしょう。しかし、未知語の例が多いコーパスがあれば、自分のベクトルを訓練することができます。 (実際には、あなた自身のドメインコーパスからの単語ベクトルは、もしそれが十分大きければ、他のコーパスから借りられた単語ベクトルよりも良いかもしれません。)word2vecのFacebookのFastTextバリアントは、単語断片ベクトルのうち、見えない単語 - 共有された語根またはスペルミスに起因するものは、「新しい」単語の意味を示すことができる。 – gojomo

+0

ここに、[FastText out-of-vocabulary words](https://github.com/facebookresearch/fastText#obtaining-word-vectors-for-out-of-vocabulary-words) – neurite

関連する問題