2016-09-26 3 views
0

の場合、この質問には既に回答済みです。私は、Rのさまざまなクラスタリングアルゴリズムに関するすべてのドキュメントを徹底的に分析してきましたが、私がしようとしているものとかなり一致するものは見つかりませんでした。クラスタリンググループのアイテムがR

短い話ですが、私はデータセット内のアイテムのリストを持っています。これらのアイテムは、オークションプロセス中に置かれるアイテムです。したがって、時間の経過とともに異なるオークションプロセスで同じアイテムが表示されることがあります。私がしようとしているのは、項目間の「クラスタリング」の量を分析する手段を作ることです。つまり、オークション処理の時間内にあるアイテムが一貫してグループ化されているかどうかを確認することです。

この単純な例取る:

を(ITEM、オークションプロセス) (A、1) (B、1) (A、2) (A、3) (B、4) (C、4) (C、5) (B、6) (D、6) (A、7) (B、8) (C、8) (A、9) (D 、10) (E、11)

だから、アイテムBはほとんどのアイテムとオークションプロセスを共有しているので、アイテムBは他のアイテムの大部分と非常に関連していることがわかります。さらに、アイテムBおよびCは、同じオークションプロセスの多くにおいてグループ化される。アイテムAはアイテムCおよびDからBのみに接続され、Eには全く接続されていない。

このタイプのクラスタリングを簡単に実行できるパッケージはR内にありますか?注意すべき2つの点:オークションプロセスは私のデータセットの文字列変数であり、アイテム数は非常に多い(〜10,000程度)。

ご協力いただきありがとうございます。

+1

ベースRで 'kmeans'を試しましたか?データをデータフレームに変換することについて考えるべきです。また、igraphをチェックしてください。これは、各ノードが別のグループ(オークションプロセス)に属するアイテムであるネットワークとして表現したいかもしれません。 – Scott

+0

'kmeans {stats}'と 'hclust {stats}'をチェックしてくださいクラスタリング分析を開始するメソッドに移動します。 **キャレット** [link](http://topepo.github.io/caret/index.html)というパッケージには、より多くの機械学習オプションが実装されています。より詳細なヘルプを得るために、より再現性のある例を投稿する必要があります。 –

+0

返信いただきありがとうございます! kmeansのクラスタリングに関しては、kの所定の値を設定する必要があります。このことに無関心で、項目がグループ化されているクラスタの最適な数を決定できるようにする方法はありますか? – user240913

答えて

0

これを試してみてください:

item <- c('A','B','A','A','B','C','C','B','D','A','B','C','A','D','E') 
item<-as.numeric(factor(item)) 
auctionProc <- c(1,1,2,3,4,5,6,6,6,7,8,8,9,10,11) 
df <- data.frame(item, auctionProc) 

library(ggplot2) 
ggplot(df, aes(df$auctionProc, 
      df$item)) + 
    xlab("Auction Process") + ylab('Item') + 
    ggtitle('Auction Process vs Item Clustering') + 
    geom_point() 

cluster <- kmeans(df[, 1:2], 3, nstart = 20) 
cluster$cluster <- as.factor(cluster$cluster) 

ggplot(df, aes(df$auctionProc, 
      df$item, 
      color = cluster$cluster)) + 
    xlab("Auction Process") + ylab('Item') + 
    ggtitle('Auction Process vs Item Clustering') + 
    scale_colour_discrete(name="Cluster Index") + 
    geom_point() 

enter image description here enter image description here

1

はむしろクラスタリングよりも、あなたが

頻繁アイテムセットマイニング

すなわちを探しているように見えます同じオークションに表示される商品の組み合わせ(「商品」)

関連する問題