2016-08-13 13 views
0

Rの中に@bens code hereと似たようなものを実装しようとしています。私は非構造化ニュース記事を扱っており、トピックモデリングを行った後にクラスタリングしたいと思います。 @benによってそれは働いた。列車内のデータをどのように分割してテストし、テストデータのクラスターを予測し、テストデータがどのように平均化された平均精度を使用しているかを評価する方法を知りたかったのです。クラスタリングのトレーニングとテスト評価R

私はこれが半監督で監督されていないことを知っていますが、結果を見るために試してみたいと思います。

+0

これを体系的に設定する方法に関するアドバイスは、[stats.SE]で最もよく受け取ります。ここでは、試したことのあるコード(実装)を提供し、メソッドの実装に問題がある箇所を指摘する必要があります。必要に応じて、いずれかのサイトに適格となり、移行をリクエストする(「フラグ」メニュー経由で)ように質問を延長してください。 – AlexR

+0

OK ..ありがとう、私はそれを再投稿します –

+0

いいえしないでください – AlexR

答えて

0

半監督とは、クラスタリングを最適化(!)して、ラベルを持つデータに対して「最適な」結果を生成し、ラベルのないデータもよくクラスタリングすることを意味します。これは、データに応じて動作しにくいです。たとえばk-meansを使用すると、クラスタ)の数と一致するようにkを最適化する可能性がありますが、未知のクラスタはどうですか?

クラスタリングの仕組みがうまく見たい場合は、トレインテストの分割は必要ありません。これは、パラメータを最適化するときに過大な値を避けるという目的を果たします(実際のパフォーマンスに対して過度に楽観的になるように拡張します)。 (クラスタリングのように)メソッドでラベルを使用せず、パラメータ化でもラベルを使用しない場合は、単に「外部評価」と呼ばれるものを実行するだけです。データセットにラベルを再追加し、クラスタリングがラベルとどれくらい合致しているかを明確にします。

ただし、ラベルに同意しなくてもクラスターは良好であることに注意してください。たとえば、ラベルmigjtは "olympics"ですが、クラスタリングは "スイミング"用のクラスタを生成します。提供されたラベルを分割したとしても、それは良いクラスターです(だからといって、なので、ラベルが改善されます)。

すべてのデータにラベルが付いている場合は、常に分類が優先されます。分類をシミュレートするためにクラスタリングを最適化しようとしないでください。

関連する問題