2017-08-12 17 views
-2

私はデータセットを持っています。それは生物学的材料です。私は標準偏差を入れて、私のデータバー2のデータポイントのすべてが平均の3s以内にあることがわかります。 平均の3秒以内にあるデータポイントは通常の変動範囲内にあると認められていますか? またはデータの範囲と分散に依存していますか?私は数学者ではない。私がコントロールしているプロセスを持っているならば、誰かが解決しようとしているだけです。私はいつもデータの95%を表現するために3sdを理解してきたので、これの内部のデータは正規分布内であり、調査する価値はありません。しかし、私はしばしば、チャートがどのように見えるかに基づいて2秒以内に十分なデータを調査するように求められます。 example chart平均の3標準偏差

標準偏差を使用しているときに異常なデータを調べるべきはいつですか?任意のヘルプ

+0

95%は2標準偏差です。 3sdは99.7%です。おそらく、この混乱を解消してあなたの質問に答えた、私は分からない。 – meowgoesthedog

+0

異常値はまれであるかもしれませんが、それはあなたがそれらを却下するべきではありません。 – duffymo

+1

これはどのようにプログラミングの質問ですか? –

答えて

1

を事前に

多くのおかげであなたは68–95–99.7 ruleを見てみる必要があります。

あなたのデータの約95%(95.45%)が平均から2標準偏差以内にあり、データが正規分布の場合はになります。データが別の分布に従う場合、Chebyshev's inequalityによって、データの少なくとも75%が必ず2つの標準偏差内に入ると言うことができます。正規分布を仮定すると、データの約99.7%(99.73%)が平均の3標準偏差内に収まる。正規分布でない場合、少なくとも89%(88.8888%)がそこに落ちます。

あなたのデータが正規分布に従ったとしても、チャンス(サンプリング誤差)はそれらのパーセンテージが正確ではないようにします。

したがって、数字はデータ、特にデータの種類とデータポイントの数によって異なります。データポイントが1000の場合、3標準偏差の外に約3ポイントが得られます。

+0

私はあなたのリンクを読んだ。これを読んで私の理解は、私のデータセットが正規分布に従うならば(私が見ている材料を信じている)、私のデータの99.7%が3SDに収まると予想されるはずです。サンプルサイズ/エラーでは、0.3%がより多くの部分を演奏し、異常値を見つけることが期待されます。私たちはST DEVを使用してプロセスステップまたはオペレーションのシフトを監視しました。私が理解していることは、シフトが3SDの範囲内にある場合、特にそれが戻ってくると、それほど懸念する必要はないということです。 – Creaven

+0

+1通常のディストリビューションと他のディストリビューション(とくにチェビシェフの不等式への接続)を注意深く区別するために+1。すべての流通に適用すると解釈される「3シグマルール」を読むたびに私は外に出ることができました。 –

関連する問題