半監督とは、クラスタリングを最適化(!)して、ラベルを持つデータに対して「最適な」結果を生成し、ラベルのないデータもよくクラスタリングすることを意味します。これは、データに応じて動作しにくいです。たとえばk-meansを使用すると、(クラスタ)の数と一致するようにkを最適化する可能性がありますが、未知のクラスタはどうですか?
クラスタリングの仕組みがうまく見たい場合は、トレインテストの分割は必要ありません。これは、パラメータを最適化するときに過大な値を避けるという目的を果たします(実際のパフォーマンスに対して過度に楽観的になるように拡張します)。 (クラスタリングのように)メソッドでラベルを使用せず、パラメータ化でもラベルを使用しない場合は、単に「外部評価」と呼ばれるものを実行するだけです。データセットにラベルを再追加し、クラスタリングがラベルとどれくらい合致しているかを明確にします。
ただし、ラベルに同意しなくてもクラスターは良好であることに注意してください。たとえば、ラベルmigjtは "olympics"ですが、クラスタリングは "スイミング"用のクラスタを生成します。提供されたラベルを分割したとしても、それは良いクラスターです(だからといって、なので、ラベルが改善されます)。
すべてのデータにラベルが付いている場合は、常に分類が優先されます。分類をシミュレートするためにクラスタリングを最適化しようとしないでください。
これを体系的に設定する方法に関するアドバイスは、[stats.SE]で最もよく受け取ります。ここでは、試したことのあるコード(実装)を提供し、メソッドの実装に問題がある箇所を指摘する必要があります。必要に応じて、いずれかのサイトに適格となり、移行をリクエストする(「フラグ」メニュー経由で)ように質問を延長してください。 – AlexR
OK ..ありがとう、私はそれを再投稿します –
いいえしないでください – AlexR