2017-11-08 30 views
0

私はgensim doc2vec(150次元の〜500Kベクトル)を使用して生成された一連のドキュメントベクトルを持っています。私はクラスタリングアルゴリズムを実行できるn * nの類似性行列を生成したい類似の文書をクラスタリングしたい。doc2vecクラスタリングn * nドキュメント間の類似性

gensim.similaritiesを使用してこのリンクhttps://github.com/RaRe-Technologies/gensim/issues/140を試しましたが、500kレコードの出力は500k * 150マトリックスでした。私は出力を理解していない。 500k * 500kでなければならないのですか?私は何かが欠けていますか?

答えて

2

これはあなたが見ているを埋め込むです。文書ごとに150次元ベクトル。

いいえ、あなたはではありません。は類似行列を計算します。

あなたは数学をしましたか? 500k x 500k x 8bytes per double/2このマトリックスには十分なメインメモリ(1TB以上)がありますか?計算にはどれくらい時間がかかりますか?どのようなクラスタリングアルゴリズムを次に実行することを意味し、どのくらいの時間そのがかかりますか?

より小さいデータから始めて、作業アプローチを見つけてください。次に、データ全体にどれだけの時間がかかるかを見積もります。あなたが何をしているのか分かりません。

関連する問題