私は2つのデータセットを持っているインデックスオフに基づいて列

を作成します。私は2つのデータセットを持っているインデックスオフに基づいて列

# 1. 
user_id users frequency 
1  1  3 
2  1  1 
3  1  1 

# 2. 
user_id sum  unique 
1  2  1 
2  0  0 
3  1  1

Iが出力画像のうち、user_idを残し、次のようになりますのでuser_idにマージが、序ファッションにUNIT1に基づいてインデックスを持つようにしたいです：

# 3. 
frequency users sum unique 
3   1  2  1 
1   2  1  1

これを達成する方法についてのご意見はありますか？また、これらのタイプの操作を行う方法を学ぶという点で、このタイプの操作の名前ですか？

出典

2017-01-25 Stu Richards

library(data.table) 
setDT(df)   # this step was to make it a data.table, if its a data.frame 
setDT(df1) 

# logic is : first merge both df's, then group by "frequency" columns 
df[df1][, lapply(.SD, sum), by = .(frequency), .SDcols = c("sum", "unique", "users")] 
# frequency sum unique users 
#1:   3 2  1  1 
#2:   1 1  1  2

出典

2017-01-25 04:24:05

@StuRichardsはあなたの実際のデータに答えますか？私は何かが欠けていましたか –

は、データセット2を参照するデータセット1/df1を参照するdfですか？ –

@StuRichardsはい –

ここにはtidyverseを使用するオプションがあります。私たちは、「周波数」によってグループ化された2つのデータセット間のinner_joinを行うことができ、我々はsummarise_each

library(dplyr) 
inner_join(df1, df2) %>% 
     group_by(frequency) %>% 
     summarise_each(funs(sum), sum, unique, users) 
# frequency sum unique users 
#  <int> <int> <int> <int> 
#1   1  1  1  2 
#2   3  2  1  1

またはbase Rを使用して内の変数のsumを取得し、我々は、データセットをmergeとaggregate

を行います

aggregate(.~frequency, merge(df1, df2)[-1], FUN = sum) 
# frequency users sum unique 
#1   1  2 1  1 
#2   3  1 2  1

出典

2017-01-25 05:47:04 akrun

私は2つのデータセットを持っているインデックスオフに基づいて列

答えて

関連する問題