-1

私はまだ機械学習のこの領域を探求していますが、フィーチャの選択と次元の削減の違いは何ですか、フィーチャの選択や次元の削減を行うときの概念を把握するのは難しいことです。機械学習 - 機能の選択または寸法の削減?

約40個のフィーチャを持つデータセットがあると仮定して、次元メンテナンスリダクションのみを実行するか、フィーチャ選択を単独で実行するのがよいでしょうか?あるいは、両方のアプローチのハイブリッドが存在するか(すなわち、最初にフィーチャ選択を行い、次いでディメンション削減を行うか、またはその逆)

答えて

0

という機能選択という用語は少し誤解を招くことがあります。

  1. は、ドメイン知識を組み込むことにより機能を選択する(これは、同様の新機能を構築する必要):これは2つの意味を持つことができます。

    たとえば、画像データセット内の回転不変点を見つけたり、高さと重さをフィーチャとして使用しているときに新しいフィーチャとしてBMIを作成したりします。

  2. ある程度

    これは次元削減プロセスの一の工程に係る重要度の高いのみの機能を保つことができます。基礎を変更することにより、新しい(人工)機能へのオリジナルの特徴を変換

    • :いわゆる次元削減プロセスは、実際には2つの手順が必要。

      例えば、 PCAは、各軸に沿った分散が最大になるように、直交フィーチャのセットを見つけることによってそうする。

    • 上記の手順で最も重要な(重要度はいくつかの尺度で定義されています)機能のみを保持します。これは実際には機能選択のステップです。

      例えば、 PCAでは、分散が最も高い上位k個のフィーチャだけを保持することによって、これが達成されます。

  3. の順序については

は、上記(1)及び(2)が起こる必要があります。私は、これが問題に依存だと思います。

問題を解決する機能を構築/選択するための十分なドメイン知識がある場合は、まず手動フィーチャエンジニアリング(プラス選択)を行う必要があります。このフィーチャエンジニアリング/選択プロセスが依然として多数のフィーチャをもたらす場合には、意味のない全く新しいフィーチャのより少ない数でデータを表すことができる部分空間を見つけるために、いわゆる次元削減を行うことができる実生活。

ドメイン知識がデータセットに何も追加できない場合は、実際にフィーチャー選択ステップが含まれているディメンション削減を行うだけです。


広義には、フィーチャ選択は、実際に元のデータセットに基底の変化が生じない次元削減の特殊なケースであると考えることができます。