2016-06-23 6 views
0

1722x1226のデータセットがあります。 1226個の属性のうち、3個の属性のみが0.12より大きい分散(すなわち、ゼロに近い分散スコア)を有する。これは他のすべての属性または変数が重複していることを意味しますか?Rを使用するデータセットのフィーチャ選択

3つの属性(分散が0.12以上のもの)のみを使用してモデルを作成する必要がありますか?

機能の選択を行うための方法はありますか?

+0

使用するモデリング手法を教えてください。カラムはどのくらい疎ですか? –

+0

SVMを使用する予定です。あなたは列の疎で何を意味するのか教えていただけますか? –

+1

あなたの提案をありがとう。 –

答えて

1

1.これは、他のすべての属性または変数が重複していることを意味しますか?

属性に重複がないことを意味する分散がない場合は、定数であることを意味します。あなたはほとんどが分散を持っていることを示しましたが、ほとんどありませんでした。だから、彼らは厳密に一定ではありませんが、少しばらつきはありませんが、彼らは非常に予知的ではありそうもありません。

2.モデルを作成するために3つの属性(分散> 0.12のもの)のみを使用する必要がありますか?

ほとんどの場合、はい。しかし、あなたの主題の詳細、すなわち従属変数と独立変数がどのようなものであるか、またどの変数をどのようにコード化してどの情報をどのように含めるべきかを決定する方法を考慮する必要があります。

また、複数の仕様をテスト相互検証のパフォーマンスを比較し、あなたのトップ3

3以上のものを含む場合上書きに目を光らせておくのが賢明かもしれ行うに任意のより良い方法はあります機能の選択?

既に行っていることに加えて、さらに高度な分析を行うことができます。これは非常に幅広い話題なので、hereにいくつか言及しているリソースを紹介します。

の選択に加えて、エンジニアリングのメリットがあります。これら1200個の変数のうちのいくつかの情報は、分散がより高いより少ない数の予測変数に設計できると確信しています。

また、列の1,226すべてに高い分散がある場合でも、モデルの自由度が低いため、すべての列を含めないでください。観測値(行)と予測子(変数)の比率を高くします。

関連する問題