2016-09-06 15 views
-1

問題:多次元異種データの2つのグループがあります。私は以下の簡単な説明の例を作りました。一部の列は離散(年齢)で、一部はバイナリ(性別)であり、別の列は順序付きペア(パンツサイズ)であることにも注意してください。多次元データクラスタリング

Person   Age gender height  weight pant_size 
Control_1  55 M  167.6  155  32,34 
Control_2  68 F  154.1  137  28,28 
Control_3  53 F  148.9  128  27,28 
Control_4  57 M  167.6  165  38,34 
Control_5  62 M  147.4  172  36,32 
Control_6  44 M  157.6  159  32,32 
Control_7  76 F  172.1  114  30,32 
Control_8  49 M  161.8  146  34,34 
Control_9  53 M  164.4  181  32,36 

Person   Age gender height  weight pant_size 
experiment_1 39 F  139.6  112  26,28 
experiment_2 52 M  154.1  159  32,32 
experiment_3 43 F  148.9  123  27,28 
experiment_4 55 M  167.6  188  36,38 
experiment_5 61 M  161.4  171  36,32 
experiment_6 48 F  149.1  144  28,28 

実験群全体がコントロール群全体と大きく異なるのですか?

大まかに言えば、[年齢、性別、身長、体重、パンツサイズ]の空間に2つの別個のクラスターを形成していますか?

私がこれまでに試したことの一般的な考え方は、実験グループの対応する列を対照の列と比較する指標です。メトリックは列のスコアの合計をとります(下記参照)。 2つのグループが異なるかどうかを決めるために、幾分任意の閾値が選択される。この恣意性は、やや恣意的である列の重み付けによって混乱させられる。注目すべきことに、このアプローチは私が実際に持っている問題に対して事前に成し遂げていますが、正式化する必要があります。私はこのアプローチが既存のアプローチと類似しているのか、あるいは他のよく確立されているアプローチがより広く受け入れられているのだろうかと思います。

Person   Age gender height  weight pant_size 
experiment_1 39 F  139.6  112  26,28 
experiment_2 52 M  154.1  159  32,32 
experiment_3 43 F  148.9  123  27,28 
experiment_4 55 M  167.6  188  36,38 
experiment_5 61 M  161.4  171  36,32 
experiment_6 48 F  149.1  144  28,28  metric 

column score 2 1  5   1  7   16 
+0

制御と実験の間でいくつかの列が異なる可能性があり、またいくつかの列が異なる可能性があるので、2つのサンプルのT検定(またはその変形)を試して、 2つのグループには大きな違いがあります。カテゴリ変数(性別)については、いずれかのグループに多かれ少なかれ女性/男性があるかどうかを調べるための割合のテストを行うことができます。ジェンダー変数のカイ2乗検定も使用することができます。 – chattrat423

答えて

0

あなたは結果「クラスタ」を前提とした場合分類ではなく、クラスタリング問題としてこれを扱います。

これらのクラスターを見つける必要はありませんが、クラスはあらかじめ定義されているためです。次のように

「書き換え」アプローチがある:

列車異なる分類ポイントは、データA、データBからのものであるかどうかを予測します。 50%よりもはるかに優れた精度を得ることができれば(バランスのとれたデータを前提とすると)、ジオプスは異なります。あなたのクラシファイアがすべて無作為と同じくらい優れている(そしてあなたがミスをしなかった)なら、おそらく2つのセットはあまりにも似ているでしょう。