トレーニングに必要な膨大なデータセット(32000 * 2500)があります。これは私の分類子にはあまりにも多いようです。そのため、私は次元削減と特にPCAについての読書をすることにしました。PCAの分散が最も大きいコンポーネントの選択
私の理解から、PCAは現在のデータを選択し、別の(x、y)ドメイン/スケールでそれらを再現します。これらの新しい座標は何も意味するものではありませんが、データを再配置して1つの軸に最大の変化を与えます。これらの新しい係数の後、最小変動を持つcooeff
を落とすことができます。
これをMatLabで実装しようとしていますが、出力に問題があります。 MatLabは、行を観測値と列として常に変数とみなします。したがって、pca
関数への私の入り口は、サイズ(32000*2500)
の私の行列になります。これは、サイズが2500*2500
の出力行列のPCA係数を返します。
PCA状態のヘルプ:
COEFFの各列は、一の主面 成分の係数を含み、列は、成分 分散の降順です。
この出力では、どの次元が私のデータの観測値ですか?私はこれを分類器に渡さなければならないのですが、coeff
の行は私のデータの観測値を表していますか、今はcoeff
の列ですか?
そして、バリエーションの最も少ない係数を削除するにはどうすればよいですか?
これは正しいです。いい仕事Ami。 +1。 – rayryeng
@rayryeng :-)ありがとう! –