2017-01-10 3 views
0

私は自分のデータセットで異常値を見つけようとしています。私は以前にそれを計算するためにzスコアを使用していました。私はzスコアテーブルで+/- 2.576のような99%信頼区間を使用していました。しかし、絶対偏差の中央値を使ってzscoreを計算する方が良いだろうと分かりました。私は私の問題は、私はそれが私が持っているデータの種類に基づいていただきました!修正Zスコアの場合は良いカットオフ以上であることを確認していないです変更されたzスコアのしきい値はどのくらいですか?

に基づいて
0.0645*(x- median)/MAD 

を修正Zスコアを持っていますか?

答えて

0

これは、データの種類によって異なります。一般に、中央値ベースの演算は、外れ値の情報を少し失う。しかし、十分大きなデータセットの結果は、セントロイドが平均値から中央値にシフトして似ているはずです。スキューされたデータセットでは、これによってより良い結果が得られる可能性があります。

カットオフポイントは、ここでは始まりのヒントです。

従来のZスコアは、平方根の計算に基づいています。これに根(N)の要素を考えてみてください。それは単純な線形計算である中央値計算の99%ポイントにどのように影響しますか?

+0

私は答えはわかりませんが、しきい値は私たちが持っている記録の数に依存することを示唆しているようですか? – SAM244776

+0

現在のメトリックを正しく読み取れば、単純な線形計算です。スコアが1,2,3,4,1000のデータセットを想像してみましょう。最後は明らかに外れ値です。ここでデータ998,999を挿入します。私がMADを理解すれば、あなたはまだ同じ数字を持っています。しかし、上位3項目がアウトライヤーであることには今や重大な疑義があります。 – Prune

関連する問題