2016-05-17 13 views
4

私はglmnetのトレーニングセットとして使用したいいくつかのダミー変数を持つデータフレームを持っています。ダミー変数と前処理

私はglmnetを使用していますので、キャレットtrain機能でpreProcessオプションを使用して機能を中央に配置し、スケールしたいと考えています。私はこの変換がダミー変数にも適用されることを望まない。

これらの変数の変換を防ぐ手段はありますか?

+1

私たちのグループで同じ問題を抱え、ハッキーな解決策を避けようとしています。何かが出てきた場合に備えて私はあなたに最新の情報を提供します。 –

+1

AFAIKこれは 'caret :: train'と' caret :: trainControl'ではまだ扱われておらず、現在のステータスは[2012年以降のこの質問]と同じです(http://stackoverflow.com/questions/14023423/どのように前処理 - 機能 - 何らかの理由で - ある要因の場合)。だから、 "ハッキー"の回避策を使用すると、最終的に現時点に行く方法になります... – geekoverdose

答えて

1

custom modelを書く以外に(現在は)これを行う方法はありません(末尾付近のPLSとRFの例を参照)。

私はどの変数がどの前処理方法を取得するかを指定する方法に取り組んでいます。ただし、ダミー変数の場合、現在のデータセットに含まれていない列を持つ多くの予測変数の名前を特定する必要があるため、これは困難です。アイデアは、ワイルドカードを使用できるようにすることです(例:SpeciesversicolorSpeciesvirginicaをキャプチャするためにSpecies*)が、まだコードはまだありません。

最大