2017-01-31 10 views
0

私はgensim w2vモデルを訓練したテキストデータセットを持っています。今私はこれらのベクトルを使用して、データセット内の単語と文書のtf-idf値を受け取りたいと考えています。それを行う正しい方法は何ですか? gensimのサイトでtutorialをフォローしようとしました。gensim上でw2vからtf-idを取得する方法

File "<ipython-input-229-7946418f8a82>", line 1, in <module> models.tfidfmodel(model.wv[model.wv.index2word]) TypeError: 'module' object is not callable

は私が欲しいものはないので、私はmodels.tfidfmodel(model.wv[model.wv.index2word]) のようなものを期待していますが、これは失敗は以降のでしょうか? BOWはこれを行う唯一の方法ですか?

答えて

3

モデルにリンクされたチュートリアルには、コーパス、つまりテキスト全体(または変換されたテキスト)が与えられます。

あなたが持っているものをしようとすると、w2vモデルが学んだ辞書がモデルになります。

何が欲しいのは私のデータ セットに単語や文書のためのTF-IDF値をreciveする

ある場合。

次に、あなたは、単にそのように渡す必要があります:あなたが実際に何をしたい変換コーパス上のTF-IDFのモデルを実行する場合

tfidf = models.TfidfModel(corpus) 

、その後、あなたが最初にあなたのw2vを使用する必要がありますコーパスを変換し、変換されたコーパスをtfidfmodelに渡します。


TFIDFモデルは、単に単語の出現頻度を計算してそれを変換コーパスとないオリジナルのものを与えることによって得られるためには何もないことに注意してください。

関連する問題