答えて

10

トピックは、ドキュメントのクラスタとはまったく異なります。結局のところ、トピックはドキュメントで構成されていません。

しかし、これら2つの技術は実際に関連しています。私はトピックモデリングは、どのように似たドキュメントがあるかを判断する実行可能な方法であると考えています。したがって、ドキュメントクラスタリングの実行可能な方法です。トピック分布(実際ベクトル)として各文書を表すには、トピックモデリング技術は、異なる単語の数から特徴次元を減らす

は、トピックの数に(コーパスに)現れました。ドキュメント間の類似性トピックの分布は、コサインのメトリックや他の多くのメトリックを使って計算することができます。これらのメトリックは、ドキュメント自体のテーマ/テーマの類似性を反映しています。この定量化された類似度に基づいて、多くのクラスタリングアルゴリズムを適用して文書をグループ化することができる。

そして、この意味では、トピックモデリングはドキュメントのクラスタリングを行う技術だと言うのは間違いないと思います。

1

クラスタリングと分類の関係は、トピックモデリングとマルチラベル分類の関係と非常によく似ています。

単一ラベルのマルチクラス分類では、ドキュメントごとにラベルを1つだけ割り当てます。クラスタリングでは、各ドキュメントを1つのグループにまとめます。実際には、ラベルを定義するときにクラスターを事前に定義することはできません。この事実を無視すれば、グループ化とラベル付けは本質的に同じことです。

しかし、現実世界の問題では、フラットな分類だけでは不十分です。多くの場合、ドキュメントは複数のカテゴリ/クラスに関連しています。したがって、我々はマルチラベル分類を活用する。ここでは、各文書を複数のグループ/トピックの下に置くことができるように、トピックのモデリングを複数ラベル分類の監督されていないバージョンとして見ることができます。ここでもまた、ラベルとしてどのトピックを使用するかを事前に決めることができないという事実は無視しています。

関連する問題