2011-08-06 12 views
0

効率的な増分クラスタリングのための方法を提案してください。私は同じような文字列を1つのグループに入れようとしています。互いに比較することは効率的ではない。私が考えているのは、各入力文字列をクラスタの代表者と照合することです(これは、新しい文字列をそのクラスタと比較できるように、そのクラスタ内の文字列の代表パターンが1つあることを意味します)。だから、クラスター内のほとんど同じような文字列を可能な限り高い精度で1つの普遍的なパターンで表すことができるように、何かを始めよう。このようにして、新しい入力は単にクラスタの代表と比較され、類似している場合はそれに保持されます。クラスタと入力の数は固定されていません...ストリングはストリーミングされており、任意のパターン長である可能性があります。増分クラスタ

私は明らかに希望します。ちょうど私がいくつかの言葉を手に入れて助けてください。

答えて

0

問題の一部が、各クラスタで使用する代表的なパターンを見つけるのが難しいように思えます。

文字列のクラスタリングを行うための通常の方法は、ベクトルとして扱うと距離尺度としてコサイン類似度を使用することです:http://en.wikipedia.org/wiki/Cosine_distance

クラスタ内の文字列をベクトルとして表現されている場合は、その後、私はの中心を考えますクラスタは、正規化されたベクトルの和です。新しい文字列を比較するために、この合計を代理人として使用します。