2017-03-06 6 views
3

私が持っているテキストファイルからtf-idf行列を生成しています。私はいくつかの語彙をより重視したいと思っています。 私は以下のコードを書いています。特定の語彙用語の重みをどのように倍にすることができますか。私は、カウントまたは単に複数の私はあなたがTFIDFまたは数のいずれかを倍増させることができますDTFIDFマトリックスのSCIKITからCountVectoriserの重みを倍にするには

from sklearn.feature_extraction.text import CountVectorizer 

count_vectorizer = CountVectorizer(min_df=1,stop_words="english") 
term_freq_matrix = count_vectorizer.fit_transform(vectoriser.mydoclist) 
# print "Vocabulary:", count_vectorizer.vocabulary_ 

from sklearn.feature_extraction.text import TfidfTransformer 

tfidf = TfidfTransformer(norm="l2") 
tfidf.fit(term_freq_matrix) 

tf_idf_matrix = tfidf.transform(term_freq_matrix) 
print len(count_vectorizer.get_feature_names()) 

答えて

0

からいくつかの用語の重要性を増やしたい2によりTFIDFの重さを倍にする必要がありますか、それは同じです。あなたのケースでは

、私は

position = count_vectorizer.vocabulary_['the_important_word'] 
tf_idf_matrix[:, position] *= 2.0 
ような何かをするだろう
関連する問題