2017-04-07 8 views
1

統計では、フィーチャの正規化はほとんど行いません。必要に応じて共変量を中心にしますが、正規化は行いません。機械学習では、詳細な学習機能の正規化が最も重要です。一部のアプリケーションで重要な理由は何ですか、他のアプリケーションでは重要ではありません。フィーチャの正規化

答えて

2

機械学習アプローチでは、スケーリングは目的関数の計算に影響するため重要です。

たとえば、多くのアルゴリズムでユークリッド距離を使用して分類を行いますが、他のフィーチャよりもはるかに大きな値を持つフィーチャがあれば、そのフィーチャは距離を支配するため、この単独フィーチャの影響を受けるだけです。

スケーリングはまた、グラジェント降下(エラー関数を最小限に抑えるために多くのアルゴリズムで使用される方法)をより迅速に収束させるのに役立ちます。 SVMも正規化された値でより早くトレーニングします。

要約すると、同じスケールですべての値を持つことは、計算に役立ちます。私が推測するところによると、なぜ機械学習において重要で統計的にはそれほど重要でないのかということは、機械学習アルゴリズムは通常、何度も反復するループを持つということです。各反復において、「スケール外」の値はますます影響を受け、モデルを支配します。一方、統計的方法はこれらのループを持たないので、スケーリングはそれほど影響を与えません。