私はdata.table dat
を4列、たとえば(col1
,col2
,,)持っています。data.tableに行を追加しますが、特定の列が同じ値をとる場合は使用しないでください。
入力データ:
structure(list(col1 = c(5.1, 5.1, 4.7, 4.6, 5, 5.1, 5.1, 4.7,
4.6, 5), col2 = c(3.5, 3.5, 3.2, 3.1, 3.6, 3.5, 3.5, 3.2, 3.1,
3.6), col3 = c(1.4, 1.4, 1.3, 1.5, 1.4, 3.4, 3.4, 1.3, 1.5, 1.4
), col4 = structure(c(1L, 1L, 1L, 1L, 1L, 4L, 4L, 4L, 4L, 4L), .Label = c("setosa",
"versicolor", "virginica", "eer"), class = "factor")), .Names = c("col1",
"col2", "col3", "col4"), row.names = c(NA, -10L), class = c("data.table",
"data.frame"))
r
col1 col2 col3 col4
1: 5.1 3.5 1.4 setosa
2: 5.1 3.5 1.4 setosa
3: 4.7 3.2 1.3 setosa
4: 4.6 3.1 1.5 setosa
5: 5.0 3.6 1.4 setosa
6: 5.1 3.5 3.4 eer
7: 5.1 3.5 3.4 eer
8: 4.7 3.2 1.3 eer
9: 4.6 3.1 1.5 eer
10: 5.0 3.6 1.4 eer
私は追加することによって得た値を使用して新しい列r_new
を作成しているsytnaxの上、
のでcol4
dat[ , r_new:= sum(col3, na.rm = T), .(col4)] #syntax 1
の一意の各値のために
col3
上で以下の操作を行っております
col3
の値は
col4
と同じです。したがって、
col4
の各一意の値は、列
r_new
にユニークな値を持ちます。私は今、何をしたいか
、ないはcol1
とcol2
はこれが何をするかと同じ値(下記のようなもの)
dat[col1 is different OR col2 is different , r_new:= sum(col3, na.rm = T), .(col4)]
を取っているそれらの行が含まれる上記と同じですが、を行うことです行に対してsum
の機能を実行している間は、col1
とcol2
の両方が同じ値をとる行は含まれません。
この条件を1と同じ構文で含めるにはどうすればよいですか?
col1 col2 col3 col4 r_new
1: 5.1 3.5 1.4 setosa 5.6
2: 5.1 3.5 1.4 setosa 5.6
3: 4.7 3.2 1.3 setosa 5.6
4: 4.6 3.1 1.5 setosa 5.6
5: 5.0 3.6 1.4 setosa 5.6
6: 5.1 3.5 3.4 eer 7.6
7: 5.1 3.5 3.4 eer 7.6
8: 4.7 3.2 1.3 eer 7.6
9: 4.6 3.1 1.5 eer 7.6
10: 5.0 3.6 1.4 eer 7.6
あなたが期待される出力で見ることができるように、setosa
行1および2のためcol1
とcol2
ためとerr
行6に同じ値を取り、7 col1
とcol2
に同じ値を取った:出力が期待
、その行を追加しませんでした(我々はそれらを一度考えました)。心配いけない程度col3
(col1
とcol2
が同じ値を取っている場合、それは同じ値を取ります
EDIT:セカンドをdput:
structure(list(col1 = c(5.1, 5.1, 4.7, 4.6, 5, 5.1, 5.1, 4.7,
4.6, 5.1), col2 = c(3.5, 3.5, 3.2, 3.1, 3.6, 3.5, 3.5, 3.2, 3.1,
3.4), col3 = c(1.4, 1.4, 1.3, 1.5, 1.4, 3.4, 3.4, 1.3, 1.5, 3.4
), col4 = c("A", "A", "A", "A", "A", "B", "B", "B", "B", "B"),
count = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1), r_new = c(5.6, 5.6,
5.6, 5.6, 5.6, 9.6, 9.6, 9.6, 9.6, 9.6)), .Names = c("col1",
"col2", "col3", "col4", "count", "r_new"), row.names = c(NA,
-10L), class = c("data.table", "data.frame"))
col1 col2 col3 col4 count r_new
1: 5.1 3.5 1.4 A 1 5.6
2: 5.1 3.5 1.4 A 1 5.6
3: 4.7 3.2 1.3 A 1 5.6
4: 4.6 3.1 1.5 A 1 5.6
5: 5.0 3.6 1.4 A 1 5.6
6: 5.1 3.5 3.4 B 1 9.6
7: 5.1 3.5 3.4 B 1 9.6
8: 4.7 3.2 1.3 B 1 9.6
9: 4.6 3.1 1.5 B 1 9.6
10: 5.1 3.4 3.4 B 1 9.6
EDIT 2:サードをdput
col1 col2 col3 col4 count r_new
1: 5.1 3.5 1.4 A 1 5.6
2: 5.1 3.5 1.4 A 1 5.6
3: 4.7 3.2 1.3 A 1 5.6
4: 4.6 3.1 1.5 A 1 5.6
5: 5.0 3.6 1.4 A 1 5.6
6: 5.1 3.5 3.4 B 1 6.2
7: 5.1 3.5 3.4 B 1 6.2
8: 4.7 3.2 1.3 B 1 6.2
9: 4.6 3.1 1.5 B 1 6.2
10: 5.1 3.5 3.4 B 1 6.2
structure(list(col1 = c(5.1, 5.1, 4.7, 4.6, 5, 5.1, 5.1, 4.7,
4.6, 5.1), col2 = c(3.5, 3.5, 3.2, 3.1, 3.6, 3.5, 3.5, 3.2, 3.1,
3.5), col3 = c(1.4, 1.4, 1.3, 1.5, 1.4, 3.4, 3.4, 1.3, 1.5, 3.4
), col4 = c("A", "A", "A", "A", "A", "B", "B", "B", "B", "B"),
count = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1), r_new = c(5.6, 5.6,
5.6, 5.6, 5.6, 6.2, 6.2, 6.2, 6.2, 6.2)), .Names = c("col1",
"col2", "col3", "col4", "count", "r_new"), row.names = c(NA,
-10L), class = c("data.table", "data.frame"))
あなたはあらかじめフィルタできませんか? –
あなたは 'dat'と期待される出力を表示できますか – mtoto
@mtoto私は例を追加しました。 – user3664020