2016-04-08 17 views
3

Rの列を因数分解することを選択する際には何らかの前提がありますか?私は要因に変換すると、randomForestのようなもののレベルが高すぎるという文字列があるので、これを尋ねます。文字として保管することに不利な点はありますか?Rの列を因数分解するときの良い経験則は何ですか?

答えて

4

私は通常、ほとんどのプロジェクト(例えば、読書、清掃、操作)の要素ではなく、文字を変数として扱いたいと思います。私は通常、分析に先立って因子に移します。現状では、因子変数の記憶を明示的に使用するために私が知っている主な理由は、ダミーを含む線形モデルで左アウトのカテゴリを制御するなど、分析のベースレベルを明示的に制御することです。

以前は、変数を要素として保持する最大の利点は、メモリを節約することでした(数年前)。因数変数は整数ベクトルとして多かれ少なかれ格納されていました。文字ベクトルと比較して、特に繰り返し要素がある場合には、はるかに少ないスペースしか占めませんでした。 @MichaelChiricoが私に以下のように指摘したように、これはかなりの間(2.8前後のどこか)のケースではありませんでした。

+2

メモリを節約したとは本当に間違いありません。http://stackoverflow.com/a/13570765/3576984 – MichaelChirico

+1

歴史的な文脈は決して傷つきません。 – lmo

+0

はい私は歴史的な文脈についても同意します。非常にきちんとした説明。 –

関連する問題