2016-12-04 14 views
-4

問題:ある企業は、データに明らかな誤りがあり、それを見つけてそれ以上の分析から除外します。データでエラーを見つけるR

データは要因です。

データのエラーを簡単に見つける方法を教えてもらえますか? 企業番号は「custnr」列にあります。そのコラムから、データのエラーを見つけます。いくつかのヒント?

zon  age custnr agree  dur claim skadkost claimfreq 
1 1  0  15  2 1.585216  0  0 0.0000000 
2 1  0 145  47 12.062971  377 294556 31.2526668 
3 1  0 184  6 3.321013  4 22152 1.2044518 
4 1  0 226  9 5.336071  5  882 0.9370190 
5 1  0 231  6 4.865161  1 67395 0.2055431 
6 1  0 385  4 5.998631  1  8869 0.1667047 
+1

どのようなエラーが発生しましたか? NAの値は?負の値ですか? –

+0

私は分かりませんが、データセットはかなり大きく、「明らかな」エラーしか見つけられませんでした。私にとっては "明白"ではない。しかし、それは私が言うだろう両方に適用されます。私は負の値やNAの値を必要としません。 @KiprasKančys – laea93

+0

各列のボックスプロットを行って、明らかな異常値があるかどうかを調べることができます。 –

答えて

0

NAの値を削除します。

dataNoNa <- data[!is.na(data$custnr), ] 

負の値を削除します。

dataClean <- dataNoNa[dataNoNa$custnr > 0, ] 
関連する問題