1
英語以外のテキストデータセットでLDA(Latent Dirichlet Allocation)を実行しようとしています。 sklearnのチュートリアルからSklearn CountVectorizerのカスタムストップワードを設定するには?
は、あなたがLDAに供給するための単語の用語頻度をカウントし、この部分があります:組み込まれているストップワード
tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2,
max_features=n_features,
stop_words='english')
は私が考える英語でのみ利用可能である備わっています。どのように私は自分のストップワードのリストを使用することができますか?
は私のオハイオ州、ええ、それが働いた:例えば、
stop_words
argumentに自分の言葉のfrozenset
を割り当てることができます!次回はドキュメントをよく読んでください。 – troll