-1

私は自分のデータポイントを構成するブロックのセットを持つ分類問題があります。私がブロック分類のために使用できる属性の1つは、本質的に別のブロックのブロック番号であるタグです。ブロックには、分類に使用できる他の属性(サイズ)もあります。私のデータセットの "タグ"属性は、次のように分類に使用できます。 - 2つのブロックに同じクラスタに属する2つのタグ(ブロック番号)がある場合、ブロックまたはデータポイントは一緒にクラスタ化する必要があります。ここでは、あらかじめタグ番号がどのクラスター番号であるかわからない。属性がクラスターIDに依存するクラスター

Block 1 [Tag 4] size 10 
Block 2 [Tag 3] size 20 
Block 3 [Tag 1] size 100 
Block 4 [Tag 2] size 110 

ここで、タグ属性に基づいて、ブロック1およびブロック2はそれぞれブロック3および4にタグを付ける。また、ブロック3およびブロック4はそれぞれタグブロック2およびブロック1である。従って、ブロック1、ブロック2はクラスタID1に属し、ブロック3及び4はクラスタID2に属することができる。また、ブロック1,2のサイズはブロック3,4のサイズよりも似ている。分類の最終結果は

cluster id 1: Block 1 , Block 2 
cluster id 2: Block 3 , Block 4 

である必要がありますか?そのようなデータポイントを分類する方法はありますか?私が理解するように、ナイーブベイズ分類器は、各属性が互いに独立しているとみなします。ここで、属性(タグ)は将来のイベント(タグ付きブロック番号が属するクラスタID)に依存します。この問題を解決するためにどのようなフォーム/クラスのクラスタリングアルゴリズムを探す必要がありますか? 私が考えることができるアプローチの1つは、サイズなどの他の属性を使用してk-meansを実行し、次にクラスIDをほぼ知っているときに、このクラスターIDをタグに追加し、分類の属性として使用します。属性が結果として得られるクラスタ自体に依存する分類子を書くための代替のよりよいアプローチがありますか? ご協力いただければ幸いです。

+1

クラスタと分類ラベルは同じですか?明確にしてください(例を挙げて)? – Ash

答えて

0

この目的は意味をなさない。

あなたの4つのブロックとタグがサイクルを形成:

1 -> 4 -> 2 -> 3 -> 1 

は、なぜそれが二つのグループ、1 + 2と3 + 4にこれを破るために理にかなって?

k-meansなどのアルゴリズムはあまり役に立ちません。あなたは良い解決策であることの正式な性質を見つける必要があります。このプロパティを最適化するアルゴリズムを見つけます。 k-meansは平方偏差を最小限に抑えます - これがあなたの問題にどのように役立つでしょうか?

+0

これはサンプルであり、偶然サイクルを形成しています。それを1つのクラスタの(1,2)と、1つのクラスタから別のクラスタへのエッジを持つ別の(3,4)との二者グラフとして見る。 size属性を使用してブロックをクラスターに分類できるので、k-meansは便利です。タグ属性は、あらかじめ使用できない将来のイベントです。私は最初にサイズを使ってブロックをクラスターに分類し、それらが属しているクラスターに基づいてタグを使用します。これは私にまともな結果をもたらしますが、私のタグ属性はデータセットの最も紛らわしい属性なので、 –

関連する問題