2016-09-06 9 views
0

私は約300000の例と約50-60のフィーチャを持つトレーニングセットを持っています。また、約7クラスのマルチクラスです。私は勾配降下を使用してパラメータの収束を見つけるロジスティック回帰関数を持っています。私の勾配降下アルゴリズムは、行列形式でパラメータを見つけます。行列形式では、ループ内で別々に線形に行うよりも高速です。 例: 行列(P)< - マトリックス(P) - 小さなトレーニングデータについてLearningRate(T(マトリックス(X))*(行列(H(X)) - マトリックス(Y)))大規模なデータにグラジエント降下を伴うロジスティック回帰

、それはです非常に速く、最大の反復で最大1000000の正しい値が得られますが、多くのトレーニングデータでは非常に遅く、約500回の反復で18分かかりますが、勾配降下の反復回数が多いためコストはまだ高く、クラスを正しく予測しません。

多分、機能の選択や機能のスケーリングを実装する必要があり、提供されたパッケージを使用することができません。使用される言語はRです。ライブラリパッケージを使用せずに機能の選択やスケーリングを実装するにはどうすればよいですか。

答えて

0

linkによれば、Z-スコア正規化または最小 - 最大スケーリング法を使用できます。どちらの方法もデータを[0,1]の範囲にスケーリングします。

enter image description here

Z-score normalizationenter image description here

Min-max scaling methodは次のように計算されるように計算されます。

関連する問題