私は300ディメンションのgeinsimで訓練されたword2vecモデルを持っており、ディメンションを100にカットしたい(最後の200ディメンションを削除する)。 Pythonを使用する最も簡単で効率的な方法は何ですか?Gensim Word2Vecモデル:カットディメンション
0
A
答えて
1
word2vec formatに出力モデルを保存することができます。テキストファイル(.txt)として保存してください。 word2vec形式は次のとおりです
先頭行は<vocabulary_size> <embedding_size>
です。あなたの場合、<embedding_size>
は300
になります。 残りの行は<word><TAB><300 floating point numbers space separated>
になります。これで、Pythonでこのファイルを簡単に解析し、各行から最後の200個の浮動小数点を捨てることができます。最初の行にある<embedding_size>
を更新してください。これを新しいファイルとして保存します(オプション)。 load_word2vec_format()を使用して、新しいファイルを新鮮なword2vecモデルとして読み込むことができます。
これが問題を解決する場合は、どうぞご了承ください。
関連する問題
- 1. Python Gensim word2vecボキャブラリーキー
- 2. Gensim word2vecオンライントレーニング
- 3. word2vec(gensim)のscore_cbow_pair
- 4. Gensim word2vec/doc2vecマルチスレッド並列クエリ
- 5. Gensim word2vecの出力は
- 6. gensim Word2vecモデルをバイナリ形式で保存します.bin with save_word2vec_format
- 7. Word2VecモデルをインポートするときのGensimエラー
- 8. gensim word2vecモデルの単語埋め込みモデルのテキストの確率の取得
- 9. gensim word2vec in/out vectorへのアクセス
- 10. python3のGensim word2vecがありません。
- 11. gensimとの文の一致word2vec:手動入力モデルが機能しない
- 12. gensim - Word2vecオンライントレーニング - AttributeError: 'Word2Vec'オブジェクトには属性がありません 'model_trimmed_post_training
- 13. python tokenizer word2vecのモデルに2ワードのフレーズ
- 14. HTTPサービスとしてのgensim Word2vecのコード 'KeyedVectors'属性エラー
- 15. gensimから否定的なWord2Vec類似性を解釈する
- 16. マッピングのあるgensim Word2Vec単語の名前変更
- 17. Pythonの:Gensim Word2vecモデルクラスで「サイズ」パラメータは何ですか
- 18. gensim word2vec:語彙の単語数を確認する
- 19. Gensim Word2Vecが多すぎるメモリを使用しています
- 20. gensimから生成されたword2vecを可視化します
- 21. gensimのWord2Vecとカスタム・ワード・コンテキスト・ペアの使用
- 22. word2vecのbigramsとtrigramsを取得するGensim
- 23. SparkでWord2Vecモデルをロード
- 24. pyspark word2vecモデルから単語リストを取得する方法は?
- 25. いくつかの単語を除外してGensim Word2vecモデルをスピードアップするには?
- 26. gensim KeydVectorsディメンション
- 27. Gensim:Doc2Vecモデリングでは、以前のword2vecモデル
- 28. word2vecモデルの比較の最適化
- 29. TensorFlow GP2で動作するWord2Vecモデル
- 30. あらかじめ定義された辞書と単語インデックスデータのGensim word2vec