2017-08-03 9 views
0

私はちょっと初心者でPCAに慣れていません。私の問題は、アンケートでは9つの変数からの観測値を持つリストがあります。最初は回答者の性別であり、次の5つ(Q51_1_c、Q51_2_c、Q51_4_c、Q51_6_c、Q51_7_c)は起業家問題について質問し、期待値(Q56_1_c、Q56_2_c、Q56_3_c)。ジェンダーを除いて、これらの変数はすべて1から5の間の値をとります。私は2つの軸を持つ散布図を作成したいと思います。最初のものは「起業家変数」で、第2の軸は「将来の期待変数」とし、分散プロットのポイントとして男性と女性の位置を定義します。PCAで散布図を作成する方法と結果を読む方法

x <- na.omit(x) #Jus to simplyfy 

resul <- prcomp(x[,-1], scale = TRUE) 

x$PC1 <- resul$x[,1] #Saving Scores PC1 
x$PC2 <- resul$x[,2] #Saving Scores PC2 

結果軸はこのようなものです::最後に

biplot(resul, scale = 0) 

enter image description here

、とこれは私のコードであるPCAを実行するには

x <- "Q1b Q51_1_c Q51_2_c Q51_4_c Q51_6_c Q51_7_c Q56_1_c Q56_2_c Q56_3_c 
3 Male  5  4  4  4  4  5  4  4 
4 Female  4  3  4  4  3  3  4  3 
5 Female  1  1  1  1  1  3  1  1 
7 Female  2  1  1  1  1  5  1  4 
8 Female  4  4  5  4  4  5  4  4 
9 Female  3  3  4  4  3  3  4  4 
13 Male  4  4  4  4  5  3  3  3 
15 Female  3  4  4  4  4  1  1  5 
16 Female  4  1  4  4  4  3  3  3 
19 Female  3  2  3  3  3  3  3  3 
20 Male  1  1  1  1  1  3  1  5 
21 Female  3  1  1  2  1  3  3  3 
26 Female  5  5  1  2  1  4  4  3 
27 Female  2  1  1  1  1  1  1  1 
29 Male  2  2  2  2  1  4  4  4 
31 Female  3  1  1  1  1  5  2  3 
34 Female  4  1  1  4  3  3  1  4 
36 Female  5  1  1  4  4  5  1  2 
37 Male  5  1  2  4  4  5  4  5 
38 Female  3  1  1  1  1  1  1  1" 

:私のデータは次のようになり散布図を作成します。

私に与え
x %>% 
    group_by(Q1b) %>% 
    summarise(mean_PC1 = mean(PC1), 
      mean_PC2 = mean(PC2)) %>% 
    ggplot(aes(x=mean_PC1, y=mean_PC2, colour=Q1b)) + 
    geom_point() + 
    theme_bw() 

は、この: enter image description here

私は結果を読み取るについて...私は一般的に女性は男性よりも、将来の期待の大きさで高い値を得ることを受け入れるべきかどうかはわかりません。そして、男性は起業家の次元でより高い価値を得ますか?

ありがとうございます!

答えて

1

あなたの解釈は正しいと思います。つまり、PC1は左から右に向かって減少する "起業家"を表し、PC2は下から上に向かって勾配です。元のデータは最高の起業家/期待を意味する)。

男性と女性が異なるかどうかという点では、男性と女性がそれぞれの起業家/期待で本当に同じであっても、 2つのサンプルから、散布図上で互いの上に右に座る。これに対処するには、実際の観測値を平均値ではなくプロットすることができます(つまり、行ごとに1つのポイント、性別で色分けされた値)。または、主成分に対して性別を退ける。

もう1つの問題は、序文データでPCAを使用するのが適切かどうかです。詳しくは、hereを参照してください。

関連する問題