2017-03-02 16 views
0

私は今、私はちょうど数値を持つ列を取り、NaN値を落とし、だから私は持ってるためkaggleのタイタニックdataset対応PCA間の主成分と元の変数

にPCAを適用したいですよ実際には4つの変数が無視されます(「存続」)。

enter image description here

私はPCA使用して5つのコンポーネントを取った場合、私は、この、データフレームDFにロードされています:

pca_model = PCA(n_components=5) 
pca_model.fit(df) 
pca_model.explained_variance_ratio_ 

[ 9.30197643e-01 6.93699966e-02 2.24377672e-04 1.49076254e-04 
    5.89069784e-05] 

は私が分散の93パーセントは、最初のコンポーネントから来ているということです。 元の変数からこの同じ値を取得する方法はありますか?例えば。年齢→分散の0.3以上 運賃 - > 0.6

元の各変数によって、どのような主成分の割合が得られますか。

答えて

1

PCAの各コンポーネントは、元の変数すべての線形結合です。 pca_model.components_を使用して、異なるPCAコンポーネント内の元の各変数の役割を確認できます。

関連する問題