私はkmeansを使って分析しようとしています。r - kmeansプロットの外れ値プロット
私はデータセットを持っている:
> head(data)
tstamp elementid value hours
2016-09-15 15:20:28 IN_TEMP 25.12237 15
2016-09-15 15:20:29 IN_TEMP 25.44952 15
2016-09-15 15:20:29 IN_TEMP 25.53550 15
2016-09-15 15:20:39 IN_PRESSURE 101.40683 15
2016-09-15 15:20:49 IN_TEMP 25.94596 15
2016-09-15 15:20:49 IN_TEMP 25.38742 15
ので、私はこの作られた:
dataCluster <- kmeans(data[, 3:4], 2, nstart = 20)
dataCluster$cluster <- as.factor(dataCluster$cluster)
levels(dataCluster$cluster) <- c("IN_TEMP", "IN_PRESSURE")
ggplot(data, aes(value, hours, color = dataCluster$cluster)) + geom_point()
私が作るとき、それは私のためokですが、:
table(dataCluster$cluster, data$elementid)
IN_PRESSURE | IN_TEMP
IN_TEMP | 0 | 953
IN_PRESSURE | 508 | 44
2番目のクラスタには、IN_TEMP値(1番目のクラスタ)の44個の値があります。
これらの44の値を1番目のクラスタの色(赤色)でペイントできますか?あなたの助け 挨拶
この分析で 'kmeans'クラスタリングのポイントは何ですか? –
私は2種類のデータ(温度と圧力)を持っています。その明らかに私は2つのクラスターを作成するが、私は私の上司にこのアルゴリズムのアイデアを示すためにこれを作った:) – VDFerreira