2016-06-20 17 views
1

私はGensimを使用してサイズ4の文章を練習しており、トレーニングデータセットには1192のユニークワードがあります。モデルlen(model.vocab)の単語の数は141ですが、意味がありません。これを見る理由はありますか?どのように私はそれらのモデルを変更することができますトレーニングのすべての単語の鍵を持っている?デフォルト値は5である モデルは= Word2Vecは(窓、min_count = 1)gensimの語彙数はトレーニングデータの語彙数よりもはるかに少ない

答えて

0

それは答えることは本当に後半ですが、多分これが誰かを助けることができる、「min_count」と呼ばれるgensim.models.word2vecのデフォルトのパラメータがあり、それがスキップあなたのデータセットのあまり一般的でない単語。すべてのvocabをそこに置くには、1に設定します。

関連する問題