2016-12-12 10 views
0

私はそれらがドキュメントに存在するかどうかをチェックする必要がある単語のセットを持っています。Scikit learn CountVectorizerの使い方は?

WordList = [w1, w2, ..., wn] 

別のセットには、これらの単語が存在するかどうかを確認する必要があるドキュメントのリストがあります。用語 - 文書行列の特徴は唯一WordListから単語や各行になるようにscikit-学ぶCountVectorizerを使用する方法

は、与えられたリストから時間単語の無い各特定の文書がそれぞれの列に表示されます表し?

答えて

0

わかった。のみwordListにから特徴と

from sklearn.feature_extraction.text import CountVectorizer 
# Counting the no of times each word(Unigram) appear in document. 
vectorizer = CountVectorizer(input='content',binary=False,ngram_range=(1,1)) 
# First set the vocab 
vectorizer = vectorizer.fit(WordList) 
# Now transform the text contained in each document i.e list of text 
Document:list 
tfMatrix = vectorizer.transform(Document_List).toarray() 

この意志出力のみ用語 - ドキュメントマトリクス: コードを以下に示します。

関連する問題