2

私は1684の測定を行う60個のセンサーのデータセットを持っています。私は実験中に使用されたセンサの数を減らし、残りのセンサデータを使用して、除去されたセンサを(機械学習を使用して)予測することを望む。相関変数のグループでは、どの変数のサブセットが残りの変数を最もよく表しているかを推測できますか?

私はデータ(image参照)を見て、センサー間の強力な相関関係を明らかにしました。これにより、Xセンサーを取り除き、残りのセンサーを使用してその動作を予測できるはずです。

残りのセット(60-X)を最も正確に予測するセンサー(X)のセットを「得点化」できますか?

答えて

1

おなじみ主成分分析(PCA)?それは分散の(ANOVA)の分析の子です。 次元の削減は、このプロセスを説明する別の用語です。

これらは通常、ピア測定値のセットではなく、単一の出力を予測する入力セットを対象としています。これらの方法にあなたのケースを適応させるためには、60個のセンサーのそれぞれを「グランド・トゥルース」と見なして、残っているものが最も確実に駆動されることを確認することから始めたいと思うでしょう。それらを削除し、希望する相関のしきい値に達するまでプロセスを繰り返します。

私はまた、この風刺練習を行う遺伝的方法を提案します。多分ランダムな森林がこの段階で助けになるでしょう。

+1

pcaを取る。今は2つのグループ、例えば20インチと240インチを持っています。ランダムに割り当てることから始めます。これはかなり良いはずです。今、両方のグループのpcaを取って、代表グループのpcaがグループ全体のpcaに近づくかどうかを調べるためのスワップを提案します。 –

+0

グループをランダムに作成するのではなく、できないでしょうか。 1)各変数の元のデータと第1の主成分(PC1)の相関を計算する 2)PC1との相関が最も悪いセンサを削除する –

関連する問題