私は自分のデータセットで異常値を見つけようとしています。私は以前にそれを計算するためにzスコアを使用していました。私はzスコアテーブルで+/- 2.576のような99%信頼区間を使用していました。しかし、絶対偏差の中央値を使ってzscoreを計算する方が良いだろうと分かりました。私は私の問題は、私はそれが私が持っているデータの種類に基づいていただきました!修正Zスコアの場合は良いカットオフ以上であることを確認していないです変更されたzスコアのしきい値はどのくらいですか?
に基づいて0.0645*(x- median)/MAD
を修正Zスコアを持っていますか?
私は答えはわかりませんが、しきい値は私たちが持っている記録の数に依存することを示唆しているようですか? – SAM244776
現在のメトリックを正しく読み取れば、単純な線形計算です。スコアが1,2,3,4,1000のデータセットを想像してみましょう。最後は明らかに外れ値です。ここでデータ998,999を挿入します。私がMADを理解すれば、あなたはまだ同じ数字を持っています。しかし、上位3項目がアウトライヤーであることには今や重大な疑義があります。 – Prune