2017-10-31 4 views
0

誰かが、この作者が正規化で次のコードを使用した理由を教えてもらえますか?著者は次の標準化のために以下のマトリックスを使用していますか?

最初の行は、次の式でトレーニングセットを標準化しています。

(X - 平均(X))/ STD(X)

二行目と三行目(検証およびテスト)それらは列車平均(trainme)を使用し、標準偏差を訓練しているが(trainstd)。テスト平均とテスト標準偏差とともに、検証平均(validationme)と検証標準偏差(validationstd)を使用していないか?あなたはまた、著者が何をしている以下のリンク(page 173)

答えて

1

で本からページを表示することができます

enter image description here

は合理的であると、それは、従来から行われているものです。アイデアは、すべての入力に同じ正規化が適用されるということです。これは本質的にいくつかの新しいパラメータ(オフセットとスケール)を割り当て、トレーニングデータからそれらを推定しています。そのスキームでは、値100が入力された場合、正規化された値は、100がどこから来たかに関係なく、(100 - オフセット)/スケールになります(トレーニング、テストなど)。

私は、あなたがデータセットを与えられて何らかの理由でオフセットとスケールが元の訓練データと大きく異なるという意味で、オフセットとスケールが文脈依存でなければならないと考えるかもしれません。重要なのは、同じデータセット内の各値が他の値と比べてどれほど大きいかということです。例えば。おそらく200を含むデータセットで2倍の大きさであれば100を100として扱うべきでしょう。

このデータに依存するスケーリングが合理的であるかどうかは、ケースごとに決定する必要があります。私はこれまで見たことがないことを覚えていませんが、場合によっては正しいことになる可能性があります。

ところで、stats.stackexchange.comおよび/またはdatascience.stackexchange.comで一般的な統計的な質問にもっと関心を寄せていただきます。

関連する問題