Sklearn CountVectorizerのカスタムストップワードを設定するには？

英語以外のテキストデータセットでLDA（Latent Dirichlet Allocation）を実行しようとしています。 sklearnのチュートリアルからSklearn CountVectorizerのカスタムストップワードを設定するには？

は、あなたがLDAに供給するための単語の用語頻度をカウントし、この部分があります：組み込まれているストップワード

tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2, 
          max_features=n_features, 
          stop_words='english')

は私が考える英語でのみ利用可能である備わっています。どのように私は自分のストップワードのリストを使用することができますか？

2016-10-19 troll

は私のオハイオ州、ええ、それが働いた：例えば、stop_words argumentに自分の言葉のfrozensetを割り当てることができます！次回はドキュメントをよく読んでください。 – troll

あなただけ

stop_words = frozenset(["word1", "word2","word3"])

2016-10-19 07:20:28

答えて