0

私はあるコメント集を持っており、それぞれのコメントがトピックについて議論しています。私はこれらのコメントで議論されたトップのトピックを把握したい。また、私はこれらのコメントをオンラインで受け取っています(つまり、私は一言で全体のコメントを取得するのではなく、これらのコメントを1つずつ処理する必要があります)。私はWord2Vecを使って特徴抽出を行い、k-means(クラスタはトピックに対応する)のようないくつかのクラスタリングアルゴリズムを適用し、次にトップmクラスタ(それらの中に最も多くのポイントを持つ)から答えを得ることができると考えました。しかし、問題はクラスタの数がわからず、いつでも新しいトピックがクラスタの新しいトピックについて議論する可能性があるため、異なるトピック(クラスタ)の数は固定されていないということです。 kの異なる値をもつk-meansを適用することによって解くことができる)。だから、他のクラスタリングアルゴリズム(DBSCANのような)を使用すべきか、その場合のアプローチは何か、あるいは私はまったく異なるアプローチを使用すべきですか?コメント集のトップmトピック

答えて

関連する問題