パネルデータ - グループ別に集計し、新しい変数を作成する

「グループ別合計」には既に多くの質問がありますが、私は自分の問題を解決できません。ここでは、次のとおりです。パネルデータ - グループ別に集計し、新しい変数を作成する

> df2 = data.table(Year = c(2009,2009,2009,2009,2009,2009,2009,2009,2010,2010,2010,2010), 
        ID = c(1621, 1621, 1628,1628,3101, 3101,3105,3105,1621, 1621, 1628,1628), 
        category= c("0910","0910","0911","0913", "0914", "0910","0910","0911","1014","1012","1011","1013"), 
        var1 = c(60,70, 400,300,15,20, 200,150,61,71,401,301), 
        var2= c(130,130,700,700,35,35,350,350,132,132,702,702))

だから私はでグループ化されたvar1の合計を計算したいと思います：

DF1は私の単純化されたデータは

> df1 = data.table(Year = c(2009,2009,2009,2009,2009,2009,2009,2009,2010,2010,2010,2010), 
        ID = c(1621, 1621, 1628,1628,3101, 3101,3105,3105,1621, 1621, 1628,1628), 
        category= c("0910","0910","0911","0913", "0914", "0910","0910","0911","1014","1012","1011","1013"), 
        var1 = c(60,70, 400,300,15,20, 200,150,61,71,401,301))

DF2は（VAR2を参照）が所望の結果である設定ですIDと最初の2つの整数category

したがって、変数カテゴリの最初の2つの整数が09（または10 d soなど）、グループIDとcategoryの最初の2つの整数による合計をvar2に割り当てます。同じカテゴリーの同じIDに同じ合計を割り当てる必要があります。

私は

> df1$var2 = rep(NA, rep(length(df1$ID))) 
df1$var2 = ifelse(substr(df1$category,1,2)=="09", by(df1[Year==2009,]$var1, df1[Year==2009,]$ID,sum), df1$var2) 
df1$Var2 = ifelse(substr(df1$category,1,2)=="10", by(df1[Year==2010,]$var1, df1[Year==2010,]$ID,sum), df1$var1)

によってこれをachievしようとしましたが、ここで和が正しい項目に割り当てられていません。

誰かが私を助けてくれますか？

出典

2017-08-25 Enrico

しばらく時間をかけてコードをフォーマットしてください。 – lmo

あなたはコードとCtrl + Kを強調表示することでこれを行うことができます – useR

df1 = data.frame(Year = c(2009,2009,2009,2009,2009,2009,2009,2009,2010,2010,2010,2010), 
        ID = c(1621, 1621, 1628,1628,3101, 3101,3105,3105,1621, 1621, 1628,1628), 
        category= c("0910",NA,"0911","0913", "0914", "0910","0910",NA,"1014","1012",NA,"1013"), 
        var1 = c(60,70, 400,300,15,20, 200,150,61,71,401,301))

OPの元のデータフレームにNA値を追加して、彼が望む完全な仕様を反映させました。

df1$category_sub = substr(df1$category, 1, 2) 
df1_aggre = aggregate(var1 ~ ID + category_sub, data = df1, sum) 
names(df1_aggre)[3] = "var2" 

df2 = merge(df1, df1_aggre, all=TRUE) 
df2[order(df2$Year),]

結果：

> df2[order(df2$Year),] 
    ID category_sub Year category var1 var2 
1 1621   09 2009  0910 60 60 
4 1621   <NA> 2009  <NA> 70 NA 
5 1628   09 2009  0911 400 700 
6 1628   09 2009  0913 300 700 
9 3101   09 2009  0914 15 35 
10 3101   09 2009  0910 20 35 
11 3105   09 2009  0910 200 200 
12 3105   <NA> 2009  <NA> 150 NA 
2 1621   10 2010  1014 61 132 
3 1621   10 2010  1012 71 132 
7 1628   10 2010  1013 301 301 
8 1628   <NA> 2010  <NA> 401 NA

Iは、第categoryから最初の2つの整数を抽出しIDとcategory_subによってvar1をグループ化。 var1をvar2にリネームし、df1とdf1_aggreとIDとcategory_subとall=TRUEオプションをマージしました。これは完全な外部結合を指定します。結果のデータフレームはソートされていませんでしたので、df2をYearでソートして、目的の結果を得ました。

出典

2017-08-25 13:38:28 useR

categroy（substr（category、1,2）とYear以外の整数の最初のものを取る必要がある場合はどうすれば問題に対処しますか？ – Enrico

@Enrico – useR

これは私がここには含まれていなかったいくつかの理由のためです：いくつかのIDはカテゴリに値がありません。これらは合計から除外されるべきです。私は簡略化されたデータセットdf1に包まれていませんでした。 – Enrico

パネルデータ - グループ別に集計し、新しい変数を作成する

答えて

関連する問題