2016-04-24 15 views
-1

私はデータマイニングと統計情報が新しくなっています。SSASクラスタリングアルゴリズムの結果は同じ入力で変化します

私はVisual Studioでデータマイニングモデルを構築しました。私はマイクロソフトのクラスタリングアルゴリズムを使用しており、いくつかの問題があります。

私は最大入力パラメータを350に設定し、クラスタリング方法を非スケーラブルな期待値最大化(私は80000行のデータを持っている)に変更しました。また、クラスタ数を0に設定して、アルゴリズムが最適なものを選択するようにしました。

ここに問題があります。私は私のPCを再起動するたびにフラッシュされるtempdbを使用しています(空き領域がたくさんあるので、tempdbはその部門の良いオプションです)。とにかく同じデータをリロードしてマイニング構造を構築すると、私は全く異なる結果になります。 1回は10個のクラスタを取得してから13個、その後9個を取得しました。同じクラスタを再現するためにクラスタ数を13に強制しましたが、それらも異なります(クラスタ自体の分布とサイズが異なります)。

私の質問はなぜですか? EMは決定論的ではありません。私はサイズと分布の小さな変化を理解していますが、DBがフラッシュされるたびに異なる結果が得られます。 アルゴリズムが私にほとんど同じ結果を与えるべきではなく、非常に異なる結果を与えるべきではありません。私は何か間違っているのですか?

答えて

1

EM(Gaussian Mixture Modeling)は、通常、k-meansのように、通常 でランダムにに初期化されています。

だから、それは決定的ではなく、結果が違うのは正常です。

+0

しかし、結果の変動は小さくなければならず、大きなものではありませんか? – DarkFeud

+0

は、データが非常にきれいで、実際にガウス的である場合にのみ表示されます。もしそれが悪いフィットであれば、1つ以上の悪い適合がある可能性があります。 –

関連する問題