多くの機能(主にカテゴリ機能(はい/いいえ))を持つデータセットがあり、欠けている値がたくさんあります。重要な機能を選択してから補完するか、最初に入力してから重要な機能を選択しますか?
次元縮小のための技術の一つは、ターゲット属性に対する樹木の大規模かつ慎重に構築セットを生成し、機能の最も有益なサブセットを見つけるために、各属性の使用状況の統計を使用することです。これは、基本的に、非常に浅いツリーの大きなセットを生成することができます。各ツリーは、属性の総数のわずかな部分で訓練されています。アトリビュートがベストスプリットとして選択されることが多い場合は、保持することが最も有益な機能です。
私はまた欠損値を埋めるためにコンピュータを使用しています。
私の疑いは、上記の2つに秩序があるべきである。上記の2つのうちどれを最初に行うのか(なぜ次元削減と転用)、なぜですか?
これはSOにはあまり適していないようだが、Cross Validatedのほうがずっと良いだろう。 – Tchotchke