私は約3,000行のデータセットを持っています。データはhttps://pastebin.com/i4dYCUQXdplyrの集計:集計:NA値
によってアクセスすることができます問題:出力にはNAがありますが、データにはNAが存在しません。ここで私はdplyrまたは集約を介してカラムの各カテゴリで合計値を合計しようとすると何が起こるかです:
example <- read.csv("https://pastebin.com/raw/i4dYCUQX", header=TRUE, sep=",")
example
# dplyr
example %>% group_by(size) %>% summarize_at(vars(volume), funs(sum))
Out:
# A tibble: 4 x 2
size volume
<fctr> <int>
1 Extra Large NA
2 Large NA
3 Medium 937581572
4 Small NA
# aggregate
aggregate(volume ~ size, data=example, FUN=sum)
Out:
size volume
1 Extra Large NA
2 Large NA
3 Medium 937581572
4 Small NA
colSums
を経由して値にアクセスしようと、動作しているようです:
# Colsums
small <- example %>% filter(size == "Small")
colSums(small["volume"], na.rm = FALSE, dims = 1)
Out:
volume
3869267348
誰でも問題を想像することはできますか?
私は_警告メッセージを信じています。かなり情報的です: '[...]整数のオーバーフロー - 和を使用して(as.numeric()) ' – Henrik