K-means Spark variance

私はk-meansアルゴリズムとSparkを使用していますが、誤差の二乗和と分散の関係はわかりません。K-means Spark variance

これらの値の間には関係があるか？

私はk = 1で作業します。

STDEV：：そして値は

サムエラーが10.5679450644

と標準偏差がある平方されている[2.05035446 2.52269532]

私は標準偏差からの二乗誤差を計算することはできますか？

「2.05 * 2.05 + 2.52 * 2.52」は10.56に近いようです – Paul

分散が

1/(n-1) * sum of squares

少なからず

として定義され、人々は、1を使用/ Nの代わりに、1 /（N-1）が、それは本当にとにかく大規模なデータのための多くは変更されません。

標準偏差はsqrt(variance)です。

そうです、3間非常に単純な関係があります：あなたの例ではその除き

stddev = sqrt(variance) = sqrt(SSQ/(n-1))

は、STDDEVは、独立して、各軸で計算しました。おそらくあなたのSSQは実際に平均 SSQ（おそらく、SSQ/n、残念ながら）です。またはデータセットに2ポイントしかありませんか？

2016-04-14 14:56:58

答えて