最初の主成分はほとんどすべての情報を持っていますが、分類のための最良の指標ではないようです。

私は180要素の特徴ベクトルを持ち、その上にPCAを適用しました。問題は、最初のPCの分散が大きいことですが、pc1とpc2の両方のバイプロット図によれば、これは異常値のために起こっているようです。それは私にとって奇妙なことです。最初の主成分はほとんどすべての情報を持っていますが、分類のための最良の指標ではないようです。

明らかに、最初のPCはここでの分類のための最良の指標ではありません。私はこのためにRを使用しています

：ここ

もPC3対PC2ためのバイプロット図です。何が起こっているのか、どうすれば解決できるのでしょうか？私は外れ値を削除する必要がありますか？もしそうであれば、私はデータを正規化するprcomp(features.df, center= TRUE, scale = TRUE)を使用していますR.

--edit

によってそうするための最良の方法ものです。

出典

2016-10-18 Hamed

PCAは外れ値に非常に敏感です。あなたはあなたのデータを全く変えましたか？私は外れ値を調べ、そこに何が起こっているのかを見てみましょう。これはあなたのデータに問題があることを示しているかもしれません。また、外れ値なしでPCAをやり直し、その外観を見てみることもできます。 –

間隔[0、1]内のすべてのフィーチャ要素を拡大することを意味する場合は、それを実行しました。実際、この場合、それはさらに深刻になります。 – Hamed

プログラミング上の問題ではなく、統計的な問題があるようです。 stats.stackexchangeに移動することをお勧めします。 – Gregor

あなたの目標が「差別」とも呼ばれる分類であれば、PCAはまったく無意味かもしれません（統計的な文脈ではまったく「政治化された」という言葉はまれです））。これは、「彼ら」が異なる「クリンコード」を発明したが、「プリンシコード」に関連するものである（プリンシパル・コンポーネントに関連する「プリンシパル・コーディネート」のスラング）。 "Crimcoords"はもはやウェブ上で見つけにくいようです。最後の世紀にはすべての優れた統計家が知っていた+ - 彼らは何だった。良い参考資料は、Gnanadesikanのモノグラフ「多変量観察の統計データ分析の方法」（第1版1977、第2版、1997; Wiley）のようである。

Ram Gnanadesikanはすでに異常値の問題を非常に認識しており、「堅牢な」方法についても言及しています。

今日では、強力な多変量統計のための「標準」Rパッケージは、（バレンティン・トドロフによる「）rrcov」です...話題の現代版は、（私は「投げ縄」タイプ正則が可能だと思う）とのパッケージ「rrlda」です主な機能rrlda()は確かにロバとラッソ（L1）のペナルティの両方を可能にします。

出典

2016-10-18 20:02:28

最初の主成分はほとんどすべての情報を持っていますが、分類のための最良の指標ではないようです。

答えて

関連する問題