2016-09-16 5 views
1

私はkmeansを使って分析しようとしています。r - kmeansプロットの外れ値プロット

私はデータセットを持っている:

> head(data) 

      tstamp elementid  value hours 
2016-09-15 15:20:28  IN_TEMP 25.12237 15 
2016-09-15 15:20:29  IN_TEMP 25.44952 15 
2016-09-15 15:20:29  IN_TEMP 25.53550 15 
2016-09-15 15:20:39 IN_PRESSURE 101.40683 15 
2016-09-15 15:20:49  IN_TEMP 25.94596 15 
2016-09-15 15:20:49  IN_TEMP 25.38742 15 

ので、私はこの作られた:

dataCluster <- kmeans(data[, 3:4], 2, nstart = 20) 
dataCluster$cluster <- as.factor(dataCluster$cluster) 
levels(dataCluster$cluster) <- c("IN_TEMP", "IN_PRESSURE") 
ggplot(data, aes(value, hours, color = dataCluster$cluster)) + geom_point() 

を、結果は次のとおりです。 enter image description here

私が作るとき、それは私のためokですが、:

table(dataCluster$cluster, data$elementid) 

      IN_PRESSURE | IN_TEMP 
    IN_TEMP |    0 | 953 
    IN_PRESSURE |  508 | 44 

2番目のクラスタには、IN_TEMP値(1番目のクラスタ)の44個の値があります。

これらの44の値を1番目のクラスタの色(赤色)でペイントできますか?あなたの助け 挨拶

+0

この分析で 'kmeans'クラスタリングのポイントは何ですか? –

+0

私は2種類のデータ(温度と圧力)を持っています。その明らかに私は2つのクラスターを作成するが、私は私の上司にこのアルゴリズムのアイデアを示すためにこれを作った:) – VDFerreira

答えて

0

私が正しく理解していれば、それはあなたが色付けしたいクラスターラベルではなく、むしろ変数elementidで色付けしたいと思っています。次のコードを使用してください:

ggplot(data, aes(value, hours, color = elementid)) + geom_point() 

これは役に立ちますか?

+0

それは完璧です:)非常にありがとう:) – VDFerreira

0

によって

ありがとうございますクラスタの色を設定するscale_colour_manualを使用することができます。

ggplot(...) + geom_point() + scale_colour_manual(values = c("red","red")) 

詳細はscale_manualを参照してください。