-4
問題:ある企業は、データに明らかな誤りがあり、それを見つけてそれ以上の分析から除外します。データでエラーを見つけるR
データは要因です。
データのエラーを簡単に見つける方法を教えてもらえますか? 企業番号は「custnr」列にあります。そのコラムから、データのエラーを見つけます。いくつかのヒント?
zon age custnr agree dur claim skadkost claimfreq
1 1 0 15 2 1.585216 0 0 0.0000000
2 1 0 145 47 12.062971 377 294556 31.2526668
3 1 0 184 6 3.321013 4 22152 1.2044518
4 1 0 226 9 5.336071 5 882 0.9370190
5 1 0 231 6 4.865161 1 67395 0.2055431
6 1 0 385 4 5.998631 1 8869 0.1667047
どのようなエラーが発生しましたか? NAの値は?負の値ですか? –
私は分かりませんが、データセットはかなり大きく、「明らかな」エラーしか見つけられませんでした。私にとっては "明白"ではない。しかし、それは私が言うだろう両方に適用されます。私は負の値やNAの値を必要としません。 @KiprasKančys – laea93
各列のボックスプロットを行って、明らかな異常値があるかどうかを調べることができます。 –