2017-03-04 1 views
0

50,000件近くのレコードを含むデータセットを分析しようとしています。私は解析サーバーとK-meansにアルゴリズムを設定しました。しかし問題は、レコードの大部分が1つのクラスター(ほぼ48,000レコード)になるということです。 SPSSのような別のアプリケーションでクラスタリングすると、それは私に受け入れられる結果をもたらしました。私はデータセットを用意して異常値を除去しましたが、問題はまだ解決されていません。だから、私はこの問題に対処する考えがあるかどうか尋ねたいのですが?K-のSingeltonクラスタはSQL Serverのssasを意味します

答えて

0

this technical documentationの記事を確認してください。それによれば、「正規化」パラメータのデフォルト設定は、データの正規分布を仮定している。そうでない場合は、この設定を変更する必要があります。

これがあなたの問題であるかどうかは確かではありません...このドキュメントをよく読んで、2つのアルゴリズムの実装間の相違点を明らかにすることができます。

関連する問題