コメント集のトップmトピック

私はあるコメント集を持っており、それぞれのコメントがトピックについて議論しています。私はこれらのコメントで議論されたトップのトピックを把握したい。また、私はこれらのコメントをオンラインで受け取っています（つまり、私は一言で全体のコメントを取得するのではなく、これらのコメントを1つずつ処理する必要があります）。私はWord2Vecを使って特徴抽出を行い、k-means（クラスタはトピックに対応する）のようないくつかのクラスタリングアルゴリズムを適用し、次にトップmクラスタ（それらの中に最も多くのポイントを持つ）から答えを得ることができると考えました。しかし、問題はクラスタの数がわからず、いつでも新しいトピックがクラスタの新しいトピックについて議論する可能性があるため、異なるトピック（クラスタ）の数は固定されていないということです。 kの異なる値をもつk-meansを適用することによって解くことができる）。だから、他のクラスタリングアルゴリズム（DBSCANのような）を使用すべきか、その場合のアプローチは何か、あるいは私はまったく異なるアプローチを使用すべきですか？コメント集のトップmトピック

出典

2017-05-30 Gurtej Sohi

なぜ簡単なLDAを試してみて、トピックの数を多くして絞り込み、それを絞り込むことができないのですか？彼らはトピックモデルを構築するためのredditのコメントを使用する場所をsense2vecを見てみることができます似たノートでhttps://radimrehurek.com/gensim/models/ldamodel.html

https://explosion.ai/blog/sense2vec-with-spacy

出典

2017-05-30 20:57:53 Shrikar

コメント集のトップmトピック

答えて

関連する問題