2
私はgensim doc2vec
を使用しています。私はdoc2vecから語彙のサイズを知る効率的な方法があるかどうかを知りたい。 1つの原点は、単語の総数を数えることですが、データが膨大な場合(1GB以上)、これは効率的な方法ではありません。doc2vecモデルからボキャブラリサイズを取得する方法はありますか?
私はgensim doc2vec
を使用しています。私はdoc2vecから語彙のサイズを知る効率的な方法があるかどうかを知りたい。 1つの原点は、単語の総数を数えることですが、データが膨大な場合(1GB以上)、これは効率的な方法ではありません。doc2vecモデルからボキャブラリサイズを取得する方法はありますか?
model
があなたの訓練を受けたDoc2Vecモデルであれば、あなたのmin_count
を適用した後の存続語彙におけるユニークワードトークンの数から提供されています:
len(model.wv.vocab)
len(model.docvecs)
vocabのようなパラメータはありません。 – Yesh
もちろん、執筆時点では!そして、まだ別の場所にいるだけです! gensimの最近のバージョンでは、 'vocab'オブジェクトは構成要素' wv'に移されました。1.0.0では、2017年2月に解答されました。 'model.vocab'経由で削除されました。上記の答えは現在のgensimと一致するように更新されました。 – gojomo
Welp、あなたのコメントを削除しました。私のコメントは同じでした。 – Yesh