グループ化変数が要因である場合、グループ別集計統計を生成するにはどうすればよいですか？

データセットmtcars（ベースRバージョン2.12.1の一部）に関する要約統計量を取得したいとします。以下では、エンジンシリンダの数に応じて車をグループ化し、残りの変数のグループ単位の平均値をmtcarsにします。グループ化変数が要因である場合、グループ別集計統計を生成するにはどうすればよいですか？

> str(mtcars) 
'data.frame': 32 obs. of 11 variables: 
$ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ... 
$ cyl : num 6 6 4 6 8 6 8 4 4 6 ... 
$ disp: num 160 160 108 258 360 ... 
$ hp : num 110 110 93 110 175 105 245 62 95 123 ... 
$ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ... 
$ wt : num 2.62 2.88 2.32 3.21 3.44 ... 
$ qsec: num 16.5 17 18.6 19.4 17 ... 
$ vs : num 0 0 1 1 0 1 0 1 1 1 ... 
$ am : num 1 1 1 0 0 0 0 0 0 0 ... 
$ gear: num 4 4 4 3 3 3 3 4 4 4 ... 
$ carb: num 4 4 1 1 2 1 4 2 2 4 ... 
> ddply(mtcars, .(cyl), mean) 
     mpg cyl  disp  hp  drat  wt  qsec  vs  am  gear 
1 26.66364 4 105.1364 82.63636 4.070909 2.285727 19.13727 0.9090909 0.7272727 4.090909 
2 19.74286 6 183.3143 122.28571 3.585714 3.117143 17.97714 0.5714286 0.4285714 3.857143 
3 15.10000 8 353.1000 209.21429 3.229286 3.999214 16.77214 0.0000000 0.1428571 3.285714 
     carb 
1 1.545455 
2 3.428571 
3 3.500000

しかし、私のグループ化変数が起こる要因になると、手間がかかります。 ddply()は、ファクタのmean()を取ることができないので、ファクタの各レベル、に対して警告をスローします。私は要約統計間違った方法の生成についてつもりならば

> mtcars$cyl <- as.factor(mtcars$cyl) 
> str(mtcars) 
'data.frame': 32 obs. of 11 variables: 
$ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ... 
$ cyl : Factor w/ 3 levels "4","6","8": 2 2 1 2 3 2 3 1 1 2 ... 
$ disp: num 160 160 108 258 360 ... 
$ hp : num 110 110 93 110 175 105 245 62 95 123 ... 
$ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ... 
$ wt : num 2.62 2.88 2.32 3.21 3.44 ... 
$ qsec: num 16.5 17 18.6 19.4 17 ... 
$ vs : num 0 0 1 1 0 1 0 1 1 1 ... 
$ am : num 1 1 1 0 0 0 0 0 0 0 ... 
$ gear: num 4 4 4 3 3 3 3 4 4 4 ... 
$ carb: num 4 4 1 1 2 1 4 2 2 4 ... 
> ddply(mtcars, .(cyl), mean) 
     mpg cyl  disp  hp  drat  wt  qsec  vs  am  gear 
1 26.66364 NA 105.1364 82.63636 4.070909 2.285727 19.13727 0.9090909 0.7272727 4.090909 
2 19.74286 NA 183.3143 122.28571 3.585714 3.117143 17.97714 0.5714286 0.4285714 3.857143 
3 15.10000 NA 353.1000 209.21429 3.229286 3.999214 16.77214 0.0000000 0.1428571 3.285714 
     carb 
1 1.545455 
2 3.428571 
3 3.500000 
Warning messages: 
1: In mean.default(X[[2L]], ...) : 
    argument is not numeric or logical: returning NA 
2: In mean.default(X[[2L]], ...) : 
    argument is not numeric or logical: returning NA 
3: In mean.default(X[[2L]], ...) : 
    argument is not numeric or logical: returning NA 
>

だから、私は思ったんだけど。

どのようにして、通常、因子別またはグループ別の要約統計（平均値、標準偏差など）のデータ構造を生成しますか？ ddply()以外のものを使用する必要がありますか？ ddply()を使用できる場合は、私のグループ化係数の平均を取ろうとしたときに発生するエラーを避けるために何ができますか？

出典

2011-01-29 briandk

使用numcolwise(mean)：numcolwise関数は、その引数（関数）を数値列のみで動作する関数に変換します（カテゴリ/係数列は無視します）。

> ddply(mtcars, .(cyl), numcolwise(mean)) 

     cyl  mpg  disp  hp  drat  wt  qsec  vs 
    1 4 26.66364 105.1364 82.63636 4.070909 2.285727 19.13727 0.9090909 
    2 6 19.74286 183.3143 122.28571 3.585714 3.117143 17.97714 0.5714286 
    3 8 15.10000 353.1000 209.21429 3.229286 3.999214 16.77214 0.0000000 
      am  gear  carb 
    1 0.7272727 4.090909 1.545455 
    2 0.4285714 3.857143 3.428571 
    3 0.1428571 3.285714 3.500000

出典

2011-01-29 03:33:49

ありがとうPrasad！私はまた、 'ddply（）'コールの代わりに 'aggregate（）'コールを使用することができた時点で気づいていませんでした。たとえば、 'aggregate（cbind（hp、mpg）〜cyl、data = mtcars、mean）'です。 – briandk

これもやってみるといいですね！ –

プラサド、それは便利なテクニックです。 –

ここでの回答ではなく、観察です。これはそれ自体ddply()の問題ではありません。これを見てください。以下は、手段のテーブルを生成するために正常に動作の両方：

aggregate(mtcars, by=list(mtcars$cyl), mean) 
apply(mtcars, 2, function(col) tapply(col, INDEX=mtcars$cyl, FUN=mean))

しかしmtcars$cyl <- as.factor(mtcars$cyl)上記の作業のどちらも後に、Rは、要因の列の平均値を取る方法を知らないので。私たちは、その列を除去することによって、それを避けることができmean()に渡されたものから（「CYLは、」列2）：

aggregate(mtcars[ , -2], by=list(mtcars$cyl), mean) 
apply(mtcars[ , -2], 2, function(col) tapply(col, INDEX=mtcars$cyl, FUN=mean))

しかし、それはかなり不格好です。

出典

2011-01-29 04:06:39

ありがとう！私は自分自身でそれを試みました、そしてあなたは絶対に正しいです：問題は、Rが要因の平均をとる方法を知らないことです、そして、私はそれを回避する方法で苦労していました。あなたのやり方は間違いなく機能しますが、 'aggregate（）'はどの列も含めて指定することができます： 'aggregate（cbind（hp、mpg）〜cyl、data = mtcars、mean）' – briandk

グループ化変数が要因である場合、グループ別集計統計を生成するにはどうすればよいですか？

答えて

関連する問題