私は180要素の特徴ベクトルを持ち、その上にPCAを適用しました。問題は、最初のPCの分散が大きいことですが、pc1とpc2の両方のバイプロット図によれば、これは異常値のために起こっているようです。それは私にとって奇妙なことです。 最初の主成分はほとんどすべての情報を持っていますが、分類のための最良の指標ではないようです。
明らかに、最初のPCはここでの分類のための最良の指標ではありません。私はこのためにRを使用しています
:ここ
もPC3対PC2ためのバイプロット図です。何が起こっているのか、どうすれば解決できるのでしょうか?私は外れ値を削除する必要がありますか?もしそうであれば、私はデータを正規化するprcomp(features.df, center= TRUE, scale = TRUE)
を使用していますR.
--edit
によってそうするための最良の方法ものです。
PCAは外れ値に非常に敏感です。あなたはあなたのデータを全く変えましたか?私は外れ値を調べ、そこに何が起こっているのかを見てみましょう。これはあなたのデータに問題があることを示しているかもしれません。また、外れ値なしでPCAをやり直し、その外観を見てみることもできます。 –
間隔[0、1]内のすべてのフィーチャ要素を拡大することを意味する場合は、それを実行しました。実際、この場合、それはさらに深刻になります。 – Hamed
プログラミング上の問題ではなく、統計的な問題があるようです。 stats.stackexchangeに移動することをお勧めします。 – Gregor