2017-08-14 8 views
-1

私は自分のドキュメントセットのレイアウトを把握したいと思っています。 SKlearnの以下の手法を使用して数値配列にキャストしています。私はその後、私はpyplotPyplotとsklearnを使用したドキュメントプロット

plt.scatter(data2D[:,0], data2D[:,1], c = categories) 

を使用してそれらを描画します

kmeans = KMeans(n_clusters=2).fit(matrix) 
    data2D = kmeans.transform(matrix) 

を使用することになり、それらをクラスタ化した場合

pipeline = Pipeline([("vect", CountVectorizer()), 
         ("tfidf", TfidfTransformer()),]) 

    matrix = pipeline.fit_transform(docs).todense() 

はしかし、これは、データセットの関数kmeans表現を生成します。行列の値を合計してプロットしているので、kmeansを使用せずに、それらがどのように相対的であるかを見ることができます。私の表現は一貫したeveytimeです。

答えて