2016-10-19 28 views
1

英語以外のテキストデータセットでLDA(Latent Dirichlet Allocation)を実行しようとしています。 sklearnのチュートリアルからSklearn CountVectorizerのカスタムストップワードを設定するには?

は、あなたがLDAに供給するための単語の用語頻度をカウントし、この部分があります:組み込まれているストップワード

tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2, 
          max_features=n_features, 
          stop_words='english') 

は私が考える英語でのみ利用可能である備わっています。どのように私は自分のストップワードのリストを使用することができますか?

+0

は私のオハイオ州、ええ、それが働いた:例えば、stop_words argumentに自分の言葉のfrozensetを割り当てることができます!次回はドキュメントをよく読んでください。 – troll

答えて

2

あなただけ

stop_words = frozenset(["word1", "word2","word3"]) 
関連する問題