それで、私に数字を与えるセンサーがあるとしましょう。実際には地元の気温など、何百分の1秒ごとにセンサーがあるとしましょう。ストリーミング入力データの母集団標準偏差を取得する
私は2番目に100個の数字の配列を埋めました。
私がしたいことは、このデータの母集団標準偏差を得ることができるように、このストリーミングデータの統計モデル、おそらくベルカーブを作成することです。
多くのストレージを搭載したコンピュータではこれは問題にはなりませんが、ラズベリーパイやマイクロプロセッサのような小さなものでは、非現実的。
私は標準偏差を得るための数学を見たとき、私は単にいくつかの数字を格納考える:
これまでのすべての数字の合計ランニング和、数字の数、および最後に実行中の合計of(各数字 - 現在の平均)^ 2。
これを使用すると、新しい数値を取得するたびに、カウントに1を加算し、合計に数値を加算し、新しい平均を取得し、(新しい数値 - 新しい平均)^ 2を合計を計算し、それを数と根で除算して、新しい標準偏差を得る。
この方法にはいくつかの問題は、しかし、があります。
これは、データ型を想定した中でのストリーミング数の合計は温度であり、平均気温は華氏60度で、数字があるオーバーフローを476年かかるだろう100hzでストリーミング。
(数平均)^ 2の合計は、平方数の合計であるため、同じレベルの信頼度を保持することはできません。
最も重要なことに、このアプローチは、各数値に対して標準偏差の数学的価値、特に母集団標準偏差を完全になくすので、非常に不正確です。
母集団標準偏差が達成できないと思われる場合は、標本標準偏差についてどうすればよいですか? n番目の数字を1つおきにしても同じ問題が発生します。
私は、私の統計モデルをセンサデータを表すようにしたいので、データセットを時間間隔(すなわち、センサデータの最後の24時間だけのモデル)に制限したくないテストやデバッグをするのに1年以上待たなければならない場合や、使用可能なモデルを入手する場合でも、私は楽しむことはできません。
母集団を得るための数学的な解決策がありますか、それとも不可能であろうと実際にはそのセットを保存することなく、何かが複数の標準偏差で離れているとき?
私が見た最も近い答えは、wikipedia.org/wiki/Algorithms_for_calculating_variance#Online_algorithmです。しかし、これが何を言っているのか、これに数字のセットが必要なのか分かりません。
ありがとうございました!
可能な重複? ](http://stackoverflow.com/questions/1174984/how-to-efficiently-calculate-a-running-standard-deviation) – DPenner1
私はこれらの問題を見てきましたが、私の具体的な問題は、変更セットだけではありません。 – user1693105