2016-10-18 5 views
0

私は180要素の特徴ベクトルを持ち、その上にPCAを適用しました。問題は、最初のPCの分散が大きいことですが、pc1とpc2の両方のバイプロット図によれば、これは異常値のために起こっているようです。それは私にとって奇妙なことです。 pc1 vs pc2最初の主成分はほとんどすべての情報を持っていますが、分類のための最良の指標ではないようです。

明らかに、最初のPCはここでの分類のための最良の指標ではありません。私はこのためにRを使用しています pc2 vs pc3

:ここ

もPC3対PC2ためのバイプロット図です。何が起こっているのか、どうすれば解決できるのでしょうか?私は外れ値を削除する必要がありますか?もしそうであれば、私はデータを正規化するprcomp(features.df, center= TRUE, scale = TRUE)を使用していますR.

--edit

によってそうするための最良の方法ものです。

+1

PCAは外れ値に非常に敏感です。あなたはあなたのデータを全く変えましたか?私は外れ値を調べ、そこに何が起こっているのかを見てみましょう。これはあなたのデータに問題があることを示しているかもしれません。また、外れ値なしでPCAをやり直し、その外観を見てみることもできます。 –

+0

間隔[0、1]内のすべてのフィーチャ要素を拡大することを意味する場合は、それを実行しました。実際、この場合、それはさらに深刻になります。 – Hamed

+0

プログラミング上の問題ではなく、統計的な問題があるようです。 stats.stackexchangeに移動することをお勧めします。 – Gregor

答えて

0

あなたの目標が「差別」とも呼ばれる分類であれば、PCAはまったく無意味かもしれません(統計的な文脈ではまったく「政治化された」という言葉はまれです))。 これは、「彼ら」が異なる「クリンコード」を発明したが、「プリンシコード」に関連するものである(プリンシパル・コンポーネントに関連する「プリンシパル・コーディネート」のスラング)。 "Crimcoords"はもはやウェブ上で見つけにくいようです。最後の世紀にはすべての優れた統計家が知っていた+ - 彼らは何だった。良い参考資料は、Gnanadesikanのモノグラフ「多変量観察の統計データ分析の方法」(第1版1977、第2版、1997; Wiley)のようである。

Ram Gnanadesikanはすでに異常値の問題を非常に認識しており、「堅牢な」方法についても言及しています。

今日では、強力な多変量統計のための「標準」Rパッケージは、(バレンティン・トドロフによる「)rrcov」です...話題の現代版は、(私は「投げ縄」タイプ正則が可能だと思う)とのパッケージ「rrlda」です主な機能rrlda()は確かにロバとラッソ(L1)のペナルティの両方を可能にします。

関連する問題