私はテキストのベクトル化にword2vecを使用し、次にscikit-learnを使用してテキストのクラスタリングにk-meansを使用しています。クラスタリングの後、各クラスタの重心に最も近い上位5または10ワードを取得するにはどうすればよいですか?私はクラスター内のすべての単語を取得することができますが、最も近い単語を取得することはできません。私は言葉にTF-IDFマップ内の各機能として、TF-IDFベクトライザーを使用していたとき、それは単純明快だったが、それはword2veck-meansはword2vecを使用することを意味します:centroidの最も近い単語を見つける
とそうではありませんここで私はK-手段
ためword2vecを使用しています方法ですmodel = gensim.models.Word2Vec.load('w2v.mdel')
word_vectors = vecTransform(input) #Convert input text to word vectors
km = KMeans(n_clusters=5)
idx = km.fit_predict(word_vectors)
実際にword2vecを使ってテキストをベクトル化する方法に依存します。あなたは詳しく説明できますか? – geompalik
@geompalik今すぐ自分のコードを追加しました – Shamy