0
私は、yelp dataというトピックを生成しています。潜在的なディリクレ割り当て(LDA)をPython(gensimパッケージ)で使用しています。コーパス文書の単語サイズを制限することによる潜在的なディリクレ割り当て(LDA)のパフォーマンス
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w{3,}')
tokens = tokenizer.tokenize(review)
これは、作成している間、私たちは、3未満の長さの騒々しい言葉をフィルタリングすることができます:トークンを生成している間、私は(RegexpTokenizer
を使用することにより)レビューから長さ> = 3を持つだけの単語を選択していますコーパス文書。
これらの単語を除外すると、LDAアルゴリズムのパフォーマンスにどのような影響がありますか?