2016-03-11 15 views
5

sklearn.preprocessing.scaleスケーリングを適用して、scikit-learnが提供するモジュールを使用して、svmクラシファイアをトレーニングするために使用するデータセットをセンタリングすることを提案します。後で使うためのスケーリングパラメータの保存方法

標準化パラメータを保存して、分類したいデータにも適用できるようにするにはどうすればよいですか?

私はstandarScalerを使用することができますが、何らかの理由でそれをファイルにシリアル化して、分類器を実行するたびに自分のデータに適合させる必要はありませんか?

答えて

2

これは最も一般的なオプションであるため、fitのポストピックルするのが最善の方法だと思います。おそらく、後で、フィーチャ抽出ツールとスケーラの両方で構成されるパイプラインを作成します。 (おそらく化合物の)ステージを酸洗することで、より一般的なものにしています。 sklearn documentation on model persistenceでは、これを行う方法について説明しています。

scale_:ndarray、形状(n_features、)データの 機能毎の相対的なスケーリング

あなたはフィットのパラメータのsklearn.preprocessing.StandardScalerを照会することができ、と述べました。 バージョン0.17の新機能:廃止予定のstd_の代わりにscale_を推奨します。 平均_:形状付き浮動小数点配列[n_features] トレーニングセット内の各フィーチャの平均値。

from sklearn import preprocessing 
import numpy as np 

s = preprocessing.StandardScaler() 
s.fit(np.array([[1., 2, 3, 4]]).T) 
>>> s.mean_, s.scale_ 
(array([ 2.5]), array([ 1.11803399])) 

以下の短い抜粋は、この示し

関連する問題