これは私の問題のモデルである:教師付き分類器の出力をクラスタ化/グループ化するにはどうすればよいですか?
Y = clf.predict(X) # 'FRUIT','FRUIT','FRUIT','ANIMAL','0','ANIMAL','ANIMAL','FRUIT'
:
私はデータポイント
X = ['Apple','Peach','Orange','Dog','Elephant','Fox','Cat','Mango']
のリストで始まりその後、私のようなクラスに私をリード教師分類器の出力を持っています
分類器にFNがない完璧な世界でも、クラスを上位クラスにグループ化できるようにしたいと考えています。
Z = cluster(Y) # 'LIST_OF_FRUITS','LIST_OF_ANIMALS','LIST_OF_FRUITS'
私はこのようなことができるかどうかわからないグループをどのくらい大きく定義することなく、ラベル付きの例の有無にかかわらず、このようなことをすることに苦労しています。
また、私が実際に解決しようとしているのは、所望のグループに「FRUIT」の並行リストだけでなく、「DINNER」という数種類のクラスが含まれている場合です。多くの場合、0+「肉」、0+「VEGが」など理想的なソリューションは、非定型夕食を知って1になり、正しい/偽陰性を推定し、分類されたデータから、夕食のグループ化を見つけることができるだろう、すなわち:
Y = ['MEAT','0','0','0','0','MEAT','0','VEG','MEAT'] -> ['DINNER'] (1 instance)
問題をコード化する単語の一部がうまくいくはずですが、パーティションが特定のサイズになるように分類子1の出力を分割する方法がわかりません。
私はこれに使うことができるものはありますか?
あなたの質問は不明です。教師付き分類器のラベルを既に知っている場合、なぜインスタンスをグループ化するのが苦労しているのですか?それは簡単ですね。 2番目の問題については、私は主な問題は何かをよく理解していません!! –
主な問題は、オブジェクトのリストをどのように分割するかを知ることではありません。上位のクラスにサブクラスの単純な順序付け/グループ化を含めることができます。 「DINNER」に「0」または「FRUIT」または「MEAT」が含まれている可能性がありますが、夕食には「0」が含まれていることはほとんどありません。 –
アルゴリズムはどのように「DINNER」を知っていますか? –