私は非常にPCAを初めて使っています。 モデルには11個のX変数があります。これらはXの変数ラベルですPCA説明分散分析
x = ['Day','Month', 'Year', 'Rolling Average','Holiday Effect', 'Day of the Week', 'Week of the Year', 'Weekend Effect', 'Last Day of the Month', "Quarter" ]
これは説明した分散から生成したグラフです。 x軸が主成分である。
[ 3.47567089e-01 1.72406623e-01 1.68663799e-01 8.86739892e-02
4.06427375e-02 2.75054035e-02 2.26578769e-02 5.72892368e-03
2.49272688e-03 6.37160140e-05]
私は機能の良い選択をしているかどうかを知る必要があります。どのような特徴の寄与が最も多いかをどのように知ることができますか?
from sklearn import decomposition
pca = decomposition.PCA()
pca.fit(X_norm)
scores = pca.explained_variance_
PCAのポイントは、データの差異を説明するための新しい機能を開発することです。新しく派生したコンポーネントに貢献している機能がどれか分かっていれば、それらの間の相関を計算できます。あなたのチャートを見れば、データのばらつきはほとんどないので、私は主成分8-10を削除します。 – flyingmeatball
PC 8-10を落とすのはどういうものか分かりませんか? –
x軸の最後の3つの値。それらは説明された分散の値が非常に低く、削除することができます。 –