私はgensim doc2vec(150次元の〜500Kベクトル)を使用して生成された一連のドキュメントベクトルを持っています。私はクラスタリングアルゴリズムを実行できるn * nの類似性行列を生成したい類似の文書をクラスタリングしたい。doc2vecクラスタリングn * nドキュメント間の類似性
gensim.similaritiesを使用してこのリンクhttps://github.com/RaRe-Technologies/gensim/issues/140を試しましたが、500kレコードの出力は500k * 150マトリックスでした。私は出力を理解していない。 500k * 500kでなければならないのですか?私は何かが欠けていますか?