Pyplotとsklearnを使用したドキュメントプロット

-1

私は自分のドキュメントセットのレイアウトを把握したいと思っています。 SKlearnの以下の手法を使用して数値配列にキャストしています。私はその後、私はpyplotPyplotとsklearnを使用したドキュメントプロット

plt.scatter(data2D[:,0], data2D[:,1], c = categories)

を使用してそれらを描画します

kmeans = KMeans(n_clusters=2).fit(matrix) 
    data2D = kmeans.transform(matrix)

を使用することになり、それらをクラスタ化した場合

pipeline = Pipeline([("vect", CountVectorizer()), 
         ("tfidf", TfidfTransformer()),]) 

    matrix = pipeline.fit_transform(docs).todense()

はしかし、これは、データセットの関数kmeans表現を生成します。行列の値を合計してプロットしているので、kmeansを使用せずに、それらがどのように相対的であるかを見ることができます。私の表現は一貫したeveytimeです。

2017-08-14 Steve

私の後に来る人のために。問題の原則は多次元スケーリングと呼ばれます。ここには、その背後にある原則を説明する役に立つブログがあります。 https://de.dariah.eu/tatom/working_with_text.html

2017-09-05 13:33:31 Steve

答えて