単変量データをグループ化する方法をグループごとに見つけようとしています。たとえば、以下のデータでは、2つの障害コード(aとb)と各グループごとに6つのデータポイントがあります。プロットでは、各障害コードに対して、障害時に2つの異なるクラスターが存在することがわかります。手動でこれは悪くないですが、私は大きなデータセット(〜100K行と〜30コード)でこれを行う方法を理解できません。私は最終的な結果が私に各クラスターのメドイドとそのクラスター内のコード数を与えることを望みます。R単変量グループ別クラスタリング
library(ggplot2)
failure <- rep(c("a","b"),each=6)
ttf <- c(1,1.5,2,5,5.5,6,8,8.5,9,14,14.5,15)
data <- data.frame(failure,ttf)
qplot(failure, ttf)
results <- data.frame(failure = c("a","b"), m1 = c(1.5,8.5), m2 = c(5.5,14.5))
私は私に、以下の表のようなものを与えるために最終的な結果のためにしたいと思います。
failure m1 m1count m2 m2count
a 1.5 3 5.5 3
b 8.5 3 14.5 3
エラーコードあたり2つのクラスタしかありませんか?各障害コードごとにクラスタを作成しますか? 'kmeans()'またはk最近隣の関数をチェックします。キャレット、クラス、FNNライブラリの両方に実装があります。 – emilliman5
助けてくれてありがとうございました。私は、1つの失敗コードにつき2つのクラスタしか存在せず、単純化のためにその仮定の結果に基づいていると仮定します。私はkmeansを見て、私が思いつくことができるものを見ていきます。私が立ち上がっている部分は、グループに基づいてクラスタを実行し、その結果をデータフレームに取り込むことです。 – nathanbeagle