1
のテキストクラスタリングの後に私はPythonでテキストデータのセットにテキストクラスタリングを行っています。基本的に、私は、TF IDFスコアを使用して、ちょうどそのような関数kmeansアルゴリズムに結果行列を適用します。 同一クラスタのPython
vect = TfidfVectorizer(min_df=100,stop_words=sw)
dtm = vect.fit_transform(df)
l=vect.get_feature_names()
k = 15
model = MiniBatchKMeans(n_clusters=k)
model.fit(dtm)
order_centroids = model.cluster_centers_.argsort()[:, ::-1]
terms = vect.get_feature_names()
for i in range(k):
print("Cluster %d:" % i, end='')
for ind in order_centroids[i, :100]:
print(' %s' % l[ind], end='')
print()
続いて、次を実行した後、私は(ほぼ完全に同じ単語に関してその中で)15個の同一のクラスタを得ます。私はLSAメソッドを使って正規化を試みましたが、ほとんど同じです。
私が間違って何をやっているし、それがどのように固定することができますか?
あなたがデータをアップロードすることができ、このような問題を回避するために
一般的な方法は次のように
zero mean
とunit variance
にあなたの機能をstandardizeするのですか?あなたはsklearnのどのバージョンを使用していますか? – sera