私はword2vecモデルを持っていて、すべての単語を列車とテストセットに埋め込むために使用します。しかし、適切な言葉では、word2vecモデルには含まれていません。そして、すべての適切な単語の埋め込みとしてベクトルをランダム化できますか? できる場合は、私にいくつかのヒントといくつかの論文を参考にしてください。 ありがとうございます単語埋め込みの単語が欠けています
0
A
答えて
0
あなたが求めていることは明確ではありません。特に「正しい言葉」とは何を意味しますか?
しかし、トレーニングの後、あなたがモデルであることを期待言葉がモデルになっていない、それは通常のいずれかによって引き起こされている場合:
(1)あなたが/前処理方法に問題があなたのコーパスをトークン化、あなたが提供したと思った言葉はそうではありませんでした。そこで、どのデータをトレーニングに渡すかをもう一度確認してください。
(2)パラメータと期待値のミスマッチ。たとえば、min_count
が5(デフォルトのword2vecライブラリ)のトレーニングを実行する場合、5回未満の単語は無視され、ワードベクトルは受信されません。 (これは通常、低頻度の単語が自分自身にとって良い単語ベクトルを得ることはできないが、他の単語とインターリーブされることによって他の単語の訓練に軽度に干渉することができるので、全体的な単語ベクトル品質にとっては良いことである)
通常、入力を二重化し、問題の疑いのある指標を記録して監視し、訓練後のモデルに含まれていることを慎重に調べることで、何がうまくいかなかったかを推測することができます。
関連する問題
- 1. 4グラムモデルのKeras単語埋め込み
- 2. Tensorflowモデルに埋め込み済みの単語を埋め込む
- 3. Tensorflow:RNNの例では、単語の埋め込みが
- 4. 抽出を埋め込む単語
- 5. 単語の類似性のための単語埋め込みはどのように機能しますか?
- 6. 単語埋め込みの次元数は何ですか?
- 7. PytorchでのSkipGram単語埋め込みトレーニングに失敗する
- 8. ケラスの逆の単語埋め込み - python
- 9. 埋め込みパターンと一致する単語
- 10. text2vec Rパッケージに単語埋め込みを準備する
- 11. 単語埋め込みのTensorFlow双方向LSTM符号化
- 12. 事前訓練された単語の埋め込みとケラスの訓練単語の埋め込みの違い
- 13. ニューラルネットワークの既存の埋め込みスペースに新しい単語ベクトル埋め込みを追加する効果
- 14. 既に学習された単語埋め込みを使用して文字から単語埋め込みを学習する
- 15. Doc2vec Gensim:各エポック中に単語埋め込みが更新されない
- 16. 埋め込み(単語またはその他の)標準ファイル形式
- 17. CNTK:ファイルから事前に埋め込まれた単語埋め込みの回避策
- 18. 欠けている単語を予測するための最善のニューラルネットワークアプローチ
- 19. ファイルと単語の読み込み
- 20. Tensorflowの予測に単語埋め込みを使用する方法
- 21. gensim word2vecモデルの単語埋め込みモデルのテキストの確率の取得
- 22. 埋め込み型簡単軽量スクリプト言語Android用Javaへの直接バインド
- 23. 小規模データセットのNLP分類/推論 - >単語埋め込みアプローチ
- 24. winformにms単語を埋め込む方法
- 25. 文字列に単語を埋め込んだケラス予測。
- 26. 一般に公開されている単語の埋め込みから、より意味のある単語を抽出します。
- 27. ComboBoxの書き込み単語
- 28. その単語が別の単語
- 29. 最後の単語が読み込まれない
- 30. word2vecを使用してテストデータを含む単語埋め込みを行う必要がありますか?
私が思うに、質問の著者は、事前に単語を埋め込んだニュースをAmazonで販売している商品のようなデータに適用すると、事前に埋め込まれた埋め込みには欠けている多くの単語はどうなるでしょうか? – neurite
未知語を無視する方がよいでしょう。しかし、未知語の例が多いコーパスがあれば、自分のベクトルを訓練することができます。 (実際には、あなた自身のドメインコーパスからの単語ベクトルは、もしそれが十分大きければ、他のコーパスから借りられた単語ベクトルよりも良いかもしれません。)word2vecのFacebookのFastTextバリアントは、単語断片ベクトルのうち、見えない単語 - 共有された語根またはスペルミスに起因するものは、「新しい」単語の意味を示すことができる。 – gojomo
ここに、[FastText out-of-vocabulary words](https://github.com/facebookresearch/fastText#obtaining-word-vectors-for-out-of-vocabulary-words) – neurite