2016-11-19 3 views
0

私はdefaultdict()のインスタンス(キーで表される)と、そのインスタンスで対話するIDを持っています。これらのグループのサイズはさまざまです。異なるサイズのグループを使用したクラスタリング

{ 
'2450-66-L116': {'7652', '8089', '9687', '7298', '7622'}, 
'2089-48-LQ16': {'7628', '1269', '96664', '76493'}, 
'2827-176-LE16': {'76538', '1269', '6688', '7990', '7649'}, 
'2322-153-L116': {'1588', '8460', '7606', '15745'}, 
'4063-1-LE16': {'9339', '8682'}, 
'2142-9-L116': {'7990', '7684', '9687'}, 
'608-664-LE16': {'7610'}, 
'2789-204-L116': {'8089', '5782', '96664', '7990'}, 
'994-31-L116': {'15745', '7610'}, 
'994-35-LE16': {'12569', '7802'}, 
'1559-1080-L115': {'7652', '8682', '7607', '9675', '7614', '7802', '7610'}, 
'5326-30-L116': {'9687', '7684', '7652', '5782', '7638', '5907', '7663'} 
} 

通常、同じインスタンスで対話するIDのグループを作成する必要があります。このデータを持つIDクラスタを作成する最良の方法は何でしょうか? kmeans、networkxなどを使用する必要がありますか?

答えて

1

まず、すべてのモデル化を行う際に辞書を使って作業することは間違いありません。 ラベルとしてIDを、変数としてすべてのインスタンスを持つ配列またはpandasデータフレームを作成する必要があります(IDにリンクされている場合は0または1が必要です)。 あなたはkmeansを構築しようとすることができますが、何かを構築するための十分なデータがないかどうかはわかりません。

+0

ありがとう!元のデータは、43KのIDと110Kのインスタンスで構成されています。私は1と0のデータフレームを持っていますが、他の操作をしているときにクラッシュするので、それを辞書に変換しました。 – castor

+0

sciki-learnアルゴリズムが辞書を受け入れるかどうかはわかりませんので、データフレームに戻る必要があります。何が問題なの?なぜクラッシュするのですか? –

関連する問題