私は、テキストクラスタリングのためのk-means、特に英語の文章を実装しようとしています。これまでは、各文書(文)の用語頻度行列がある時点にいます。私は、テキストデータに対するk-meansの実際の実装について少し混乱しています。どのように動くべきか、私の推測です。すべての文章でのユニークワード(多数、n
それを呼び出す)の数うちk-テキストクラスタリングの手段
図。
(どのように私はこれらの数値の範囲が何であるかを決めるのですか?)
k
n
次元ベクトル(クラスタ)を作成し、いくつかのランダムな番号を持つk
ベクトルの値を入力からのユークリッド距離を決定しますランダム
k
クラスタへq
文章の各クラスタを再配置など(n
は、英語のような非常に大きい場合は、これらのベクトルのユークリッド距離は非常に高価である計算ではないでしょうか?)
ありがとうございました!