2016-04-13 6 views
0

私はk-meansアルゴリズムとSparkを使用していますが、誤差の二乗和と分散の関係はわかりません。K-means Spark variance

これらの値の間には関係があるか?

私はk = 1で作業します。

STDEV::そして値は

サムエラーが10.5679450644

と標準偏差がある平方されている[2.05035446 2.52269532]

私は標準偏差からの二乗誤差を計算することはできますか?

+0

「2.05 * 2.05 + 2.52 * 2.52」は10.56に近いようです – Paul

答えて

0

分散が

1/(n-1) * sum of squares 

少なからず

として定義され、人々は、1を使用/ Nの代わりに、1 /(N-1)が、それは本当にとにかく大規模なデータのための多くは変更されません。

標準偏差はsqrt(variance)です。

そうです、3間非常に単純な関係があります:あなたの例ではその除き

stddev = sqrt(variance) = sqrt(SSQ/(n-1)) 

は、STDDEVは、独立して、各軸で計算しました。おそらくあなたのSSQは実際に平均 SSQ(おそらく、SSQ/n、残念ながら)です。またはデータセットに2ポイントしかありませんか?

関連する問題