2017-10-09 5 views
0

私はtf-idfの値を計算する必要がある単語(n-gram)のセットを持っています。これらの言葉は、私の語彙のGensimでtf-idfを計算する

myvocabulary = ['tim tam', 'jam', 'fresh milk', 'chocolates', 'biscuit pudding'] 

私のコーパスは次のようになります。

corpus = {1: "making chocolates biscuit pudding easy first get your favourite biscuit chocolates", 2: "tim tam drink new recipe that yummy and tasty more thicker than typical milkshake that uses normal chocolates", 3: "making chocolates drink different way using fresh milk egg"} 

私は現在、次のようにsklearnを使用してmyvocabularyで私のnグラムのためのTF-IDF値を取得しています。

tfidf = TfidfVectorizer(vocabulary = myvocabulary, ngram_range = (1,3)) 
tfs = tfidf.fit_transform(corpus.values()) 

しかし、私はGensimで同じことをすることに興味があります。私がGensimで出会った事例をお聞かせください。したがって、すべての単語(私だけmyvocabularyに単語を計算したい)

について計算

  1. のみユニグラム使用しています(バイグラムにとってiwantをし、同様にトライグラム)
  2. 、私を助けてくださいGensimで上記の2つのことをどうやって行うかを調べる。 gensimで

答えて

0

は、辞書のために、あなたはgensim.corpora.Dictionaryクラスを使用する必要があり、examples

を見て残念ながら、我々は一般的にはサポートngramsを持っていない、唯一のPhrasesクラス

+0

との言葉をバイグラムあなたはどのように教えてもらえますバイグラムを使ってtf-idfを計算する? –

+0

1.テキストを処理する 2.フレーズをフレーズ+テキストに適用する(バイグラムで新しいテキストを与える) 3. TfidfModel –

+0

でtfidfを計算するこれは私の質問です。選択したバイグラムを入力する方法tf-idfをtfidfmodelに計算したい:D –

関連する問題