私は2列と70,000行のデータフレームを持っています。 1つの列は、家庭の識別子であり、下の例の列b
です。もう1つの列は、世帯内の個体を指し、1からnまで番号をつけて、以下の例では何らかの誤り(1,2,3または1,4,5)で列番号a
とします。データフレームのサブセット化とカウント値の向上
私は階層的クラスタリングを、世帯内の個人の数を特徴として使用しようとしています。私が下に書いたコードは、世帯内の人の数を数え、それらを適切な列と行に入れますが、実際のデータセットでは数分かかります。この情報を得るより良い方法はありますか?これは迅速であれば
fake.data <- data.frame(a = c(1,1,5,6,7,1,2,3,1,2,4), b = c("a", "a", "a", "a", "a", "b", "b", "b", "c", "c", "c"))
fake.cluster <- data.frame(b = unique(fake.data$b))
fake.cluster$members <- sapply(fake.cluster$b, function(x) length(unique(subset(fake.data, fake.data$b == x)$a)))
を使用してオプションですあなたは私のヒーローです – IJH