私は大量のデータを持っていると言います。平均値と標準偏差。再帰を使用して大量のデータを集める
次に、2つの値を2つの値に分け、最後の2つの値の平均値を計算します。
a)これは元の大きな量の平均ですか?
b)標準偏差の計算には、この種の方法を使用できますか?
私は大量のデータを持っていると言います。平均値と標準偏差。再帰を使用して大量のデータを集める
次に、2つの値を2つの値に分け、最後の2つの値の平均値を計算します。
a)これは元の大きな量の平均ですか?
b)標準偏差の計算には、この種の方法を使用できますか?
A)は、に分割セットは常に同じサイズである場合にのみ、元のセットのサイズは、例えば2
の累乗でなければならないことを意味し、{6}の平均値は6であり、そして{3,6}の平均は4.5ですが、{3,6,6}の平均は5.25ではなく、5です。
確かにあなたは部分を再帰的に分割して合計を計算することができます。最後の合計サイズ。それがあなたに良いことなのかどうかは分かりません。
b)の例には
、{2} 0のs.d、及びS.D. {1,2}のsdは0ではありません。
集合全体の平均を計算すると、平均計算と同様に、合計サイズで除算し、最後に平方根を取る。 [編集:実際にs.dを計算するために必要なのは総和、合計、およびカウントです。それを忘れてしまった。だから、それは間違っている、しかし、あなたは平均手段からのセットの標準偏差、標準偏差、及びそのそのセットセットの大きさを表現することができる場合]平均最初の計算に
を持っていません分割されています。具体
、m_x、s_xとn_x手段、標準偏差、およびxの大きさであり、そしてXは、多くのXのに区分されている場合、
n_X = sum_x(n_x)
m_X = sum_x(n_x m_x)/n_X
s_X^2 = (sum_x(n_x(s_x^2 + m_x^2)) - m_X)/n_X
標準偏差がフォーム和であると仮定するとは、( x - 平均(x))/ n;それがサンプルの不偏推定量の場合は、それに応じて重みを調整するだけです。
オン(a) - 正確にセットを2つに分けた場合にのみ正確です。たとえば、奇数のアイテムがある場合、小さな「半分」に向かってわずかな重みがあります。セットが大きくなるほど、問題の重要度は低くなります。しかし、細分化していくにつれて問題が再発します。 3つのアイテムのセットを1つのアイテムとペアに分割すると、非常に大きなエラーが発生します。ペアの各アイテムは、単一アイテムと同じ最終結果の半分にすぎません。
私は利得が表示されません。あなたはまだ多くの追加をしています。あなたはさらに分裂を終わらせる。さらに重要なことに、非順次的な順序でメモリにアクセスすると、キャッシュのパフォーマンスが低下します。
平均と標準偏差の通常の方法は、最初にすべての項目の合計と2乗の合計を計算することです。どちらも同じループ内にあります。古い電卓は、これを処理するために使用されていました。また、アイテムの数がカウントされていました。最後に、これらの3つの値(n、xの和とxの平方和)だけが必要です。残りは、平均と標準偏差の標準式への置き換えです。
EDIT
あなたはこのために再帰を使用しての死者セットしている場合は、「末尾再帰」を調べます。数学的には、尾部の再帰と反復は同等です。同じことを別々に表現します。実装においては、反復がうまくいくスタックオーバーフローが発生する可能性がありますが、(1)いくつかの言語でこれが起こらないことが保証されています(例:Scheme、Haskell)。 CまたはC++)。
もちろん可能です。等しいセット、2のべき乗の必要はありません。擬似コード:
N1,mean1,s1;
N2,mean2,s2;
N12,mean12,s12;
N12 = N1+N2;
mean12 = ((mean1*N1) + (mean2*N2))/N12;
s12 = sqrt((s1*s1*N1 + s2*s2*N2)/N12 + N1*N2/(N12*N12)*(s1-s2)*(s1-s2));
http://en.wikipedia.org/wiki/Weighted_mean
http://en.wikipedia.org/wiki/Standard_deviation#Combining_standard_deviations
「あなたはに分けるセットは常に同じサイズである場合にのみ」ウィキペディアは同意できないように思われます。私の答えを見てください。 – Ishtar
@Ishtar:しかし、要素の数で手段を掛け合わせると、私はすでに言いましたが、合計を取り除くだけです。私はそれが意味するかどうかを意味論的議論の価値があるとは思わない。 –
(丸め関連のエラーを伴う)おおよその合計を取り出す。 – Steve314