クラスタリングモデルを実行している非常に大きなデータセットがあります。numpy配列で割り当てられたクラスタを別々のデータセットに変換する
[ 0 1 2 1 1 0 0 0 1 2 1 0 2 0 1 2 1 0 2 2 0 0 1 ... ]
私は元のデータセットを取得し、配列に基づいて3つのデータセットを作成したいと思います。私はこれについてどうやって行くのですか?
初期データセットの作業:
import pandas as pd
pd.options.mode.chained_assignment = None
raw_data = pd.read_csv("LendingClub2012to2013.csv", low_memory = False, skiprows=[0])
//Some cleaning done, target leakage removed, dummies created, imputation, etc.
clean_data = raw_data.drop(text2d + leakage2d + noinfo2d + irr2d, axis = 1)
。私たちのコードを見せてください! – Astrom
データポイント数とクラスタ数はいくつですか? –
現在、私は3つのクラスター、171483 x 115サイズで作業しています。 – Jgreen727