問題:多次元異種データの2つのグループがあります。私は以下の簡単な説明の例を作りました。一部の列は離散(年齢)で、一部はバイナリ(性別)であり、別の列は順序付きペア(パンツサイズ)であることにも注意してください。多次元データクラスタリング
Person Age gender height weight pant_size
Control_1 55 M 167.6 155 32,34
Control_2 68 F 154.1 137 28,28
Control_3 53 F 148.9 128 27,28
Control_4 57 M 167.6 165 38,34
Control_5 62 M 147.4 172 36,32
Control_6 44 M 157.6 159 32,32
Control_7 76 F 172.1 114 30,32
Control_8 49 M 161.8 146 34,34
Control_9 53 M 164.4 181 32,36
Person Age gender height weight pant_size
experiment_1 39 F 139.6 112 26,28
experiment_2 52 M 154.1 159 32,32
experiment_3 43 F 148.9 123 27,28
experiment_4 55 M 167.6 188 36,38
experiment_5 61 M 161.4 171 36,32
experiment_6 48 F 149.1 144 28,28
実験群全体がコントロール群全体と大きく異なるのですか?
大まかに言えば、[年齢、性別、身長、体重、パンツサイズ]の空間に2つの別個のクラスターを形成していますか?
私がこれまでに試したことの一般的な考え方は、実験グループの対応する列を対照の列と比較する指標です。メトリックは列のスコアの合計をとります(下記参照)。 2つのグループが異なるかどうかを決めるために、幾分任意の閾値が選択される。この恣意性は、やや恣意的である列の重み付けによって混乱させられる。注目すべきことに、このアプローチは私が実際に持っている問題に対して事前に成し遂げていますが、正式化する必要があります。私はこのアプローチが既存のアプローチと類似しているのか、あるいは他のよく確立されているアプローチがより広く受け入れられているのだろうかと思います。
Person Age gender height weight pant_size
experiment_1 39 F 139.6 112 26,28
experiment_2 52 M 154.1 159 32,32
experiment_3 43 F 148.9 123 27,28
experiment_4 55 M 167.6 188 36,38
experiment_5 61 M 161.4 171 36,32
experiment_6 48 F 149.1 144 28,28 metric
column score 2 1 5 1 7 16
制御と実験の間でいくつかの列が異なる可能性があり、またいくつかの列が異なる可能性があるので、2つのサンプルのT検定(またはその変形)を試して、 2つのグループには大きな違いがあります。カテゴリ変数(性別)については、いずれかのグループに多かれ少なかれ女性/男性があるかどうかを調べるための割合のテストを行うことができます。ジェンダー変数のカイ2乗検定も使用することができます。 – chattrat423