効率的な増分クラスタリングのための方法を提案してください。私は同じような文字列を1つのグループに入れようとしています。互いに比較することは効率的ではない。私が考えているのは、各入力文字列をクラスタの代表者と照合することです(これは、新しい文字列をそのクラスタと比較できるように、そのクラスタ内の文字列の代表パターンが1つあることを意味します)。だから、クラスター内のほとんど同じような文字列を可能な限り高い精度で1つの普遍的なパターンで表すことができるように、何かを始めよう。このようにして、新しい入力は単にクラスタの代表と比較され、類似している場合はそれに保持されます。クラスタと入力の数は固定されていません...ストリングはストリーミングされており、任意のパターン長である可能性があります。増分クラスタ
私は明らかに希望します。ちょうど私がいくつかの言葉を手に入れて助けてください。