2016-06-01 13 views
-1

多くの機能(主にカテゴリ機能はい/いいえ))を持つデータセットがあり、欠けている値がたくさんあります。重要な機能を選択してから補完するか、最初に入力してから重要な機能を選択しますか?

次元縮小のための技術の一つは、ターゲット属性に対する樹木の大規模かつ慎重に構築セットを生成し、機能の最も有益なサブセットを見つけるために、各属性の使用状況の統計を使用することです。これは、基本的に、非常に浅いツリーの大きなセットを生成することができます。各ツリーは、属性の総数のわずかな部分で訓練されています。アトリビュートがベストスプリットとして選択されることが多い場合は、保持することが最も有益な機能です。

私はまた欠損値を埋めるためにコンピュータを使用しています。

私の疑いは、上記の2つに秩序があるべきである。上記の2つのうちどれを最初に行うのか(なぜ次元削減と転用)、なぜですか?

+2

これはSOにはあまり適していないようだが、Cross Validatedのほうがずっと良いだろう。 – Tchotchke

答えて

-1

は、データの代用を常に避けてください。(意味で - 必要な場合にのみ使用してください)。言い換えれば、欠けている値を扱えるメソッドがあれば、それを使用します(そうでない場合は、データ代入が残っています)。

データの置き換えは、ほとんど常に大きく偏っており、何度も表示されています。私は20歳までの論文についても読んでいると思います。一般的には、統計的に健全なデータ代入を行うには、非常に良い生成モデルに適合する必要があります。 「最も一般的な」、平均値などを単に入力することで、Naive Bayesと同様の強さのデータが仮定されます。

+0

答えはあなたが**決して**それをするべきではないと言っていません。 「欠けている値を扱える方法​​があれば、それを使用する」と言います。そのようなメソッドがない場合は、データの代用が唯一の方法かもしれません。 「避ける」とは「決して使用しない」という意味ではありませんが、最初の文章を明確にするために言い換える – lejlot

関連する問題