2017-07-27 9 views
1

文書のセットが他の文書のテキストデータセットと一緒に表示された、それぞれのベクトル表現で構築されたグラフを見て、特別な類似性を持っているかどうかをテストしたいと思います。私は彼らが一緒に視覚化になると思う。文書のクラスタリングと可視化

解決策は、doc2vecを使用して各ドキュメントのベクトルを計算し、プロットすることです。それは監督されていない方法で行うことができますか? Word2vecの美しい2Dと​​3D表現を得るために、どのPythonライブラリを使用しますか?

答えて

0

あなたが尋ねていることはわかりませんが、ベクトルが同じタイプであるかどうかを確認する方法を知りたい場合は、K-Meansを使用できます。 K-Meansはベクタのリストから数Kのクラスタを作成します。そのため、良いKを選ぶと(あまりにも低くないので何かを検索しますが、それほど高くないので判別しにくくなります)、うまくいく可能性があります。

K平均肉眼的にそのように動作:

init_center(K) # randomly set K vector that will be the center of your cluster 

while not converge(): # This one is tricky as you can find a lot of way to check for the convergence, the easiest is to check if your center has moved since the last itteration 

    associate_vector() # Here you associate all the vectors to the closest center 

    re_calculate_center() # And now you put the center at the... well center of their point, you can do that just by doing the mean of all the vector of the cluster. 

このGIFが私よりも、おそらく明確である: Gif K-mean

そして、この記事(このGIFからである)でも、私よりも本当に明確です彼がここにJavaのために話したら: https://picoledelimao.github.io/blog/2016/03/12/multithreaded-k-means-in-java/