2016-07-23 9 views
0

キノコデータセットでC5.0で作業中にエラーが発生します。私はターゲットクラスを因数分解し、欠損値はありません。キノコデータセットで値1のexitと呼ばれるc50コード

f <-file("https://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/agaricus-lepiota.data", open="r") 
data <- read.table(f, sep=",", header=F) 
str(data) 

'data.frame': 8124 obs. of 23 variables: 
$ V1 : Factor w/ 2 levels "e","p": 2 1 1 2 1 1 1 1 2 1 ... 
$ V2 : Factor w/ 6 levels "b","c","f","k",..: 6 6 1 6 6 6 1 1 6 1 ... 
$ V3 : Factor w/ 4 levels "f","g","s","y": 3 3 3 4 3 4 3 4 4 3 ... 
$ V4 : Factor w/ 10 levels "b","c","e","g",..: 5 10 9 9 4 10 9 9 9 10 ... 
$ V5 : Factor w/ 2 levels "f","t": 2 2 2 2 1 2 2 2 2 2 ... 
$ V6 : Factor w/ 9 levels "a","c","f","l",..: 7 1 4 7 6 1 1 4 7 1 ... 
$ V7 : Factor w/ 2 levels "a","f": 2 2 2 2 2 2 2 2 2 2 ... 
$ V8 : Factor w/ 2 levels "c","w": 1 1 1 1 2 1 1 1 1 1 ... 
$ V9 : Factor w/ 2 levels "b","n": 2 1 1 2 1 1 1 1 2 1 ... 
$ V10: Factor w/ 12 levels "b","e","g","h",..: 5 5 6 6 5 6 3 6 8 3 ... 
$ V11: Factor w/ 2 levels "e","t": 1 1 1 1 2 1 1 1 1 1 ... 
$ V12: Factor w/ 5 levels "?","b","c","e",..: 4 3 3 4 4 3 3 3 4 3 ... 
$ V13: Factor w/ 4 levels "f","k","s","y": 3 3 3 3 3 3 3 3 3 3 ... 
$ V14: Factor w/ 4 levels "f","k","s","y": 3 3 3 3 3 3 3 3 3 3 ... 
$ V15: Factor w/ 9 levels "b","c","e","g",..: 8 8 8 8 8 8 8 8 8 8 ... 
$ V16: Factor w/ 9 levels "b","c","e","g",..: 8 8 8 8 8 8 8 8 8 8 ... 
$ V17: Factor w/ 1 level "p": 1 1 1 1 1 1 1 1 1 1 ... 
$ V18: Factor w/ 4 levels "n","o","w","y": 3 3 3 3 3 3 3 3 3 3 ... 
$ V19: Factor w/ 3 levels "n","o","t": 2 2 2 2 2 2 2 2 2 2 ... 
$ V20: Factor w/ 5 levels "e","f","l","n",..: 5 5 5 5 1 5 5 5 5 5 ... 
$ V21: Factor w/ 9 levels "b","h","k","n",..: 3 4 4 3 4 3 3 4 3 3 ... 
$ V22: Factor w/ 6 levels "a","c","n","s",..: 4 3 3 4 1 3 3 4 5 4 ... 
$ V23: Factor w/ 7 levels "d","g","l","m",..: 6 2 4 6 2 2 4 4 2 4 ... 

を与え、私は

C5.model <- C5.0(data[1:4000,-1],data[1:4000,1],trials = 3) 

を実行したときに、私はこれを見つけるためにどのように全く分からなかった

c50 code called exit with value 1 

を与えます。デバッグに関する考え方はありがたいです

Edit1:エラーは同じですが解決策は異なります。 注:私はデータセットを変更したときに動作しています。

+0

このデータセットには値がないため、問題があります。このデータセットには欠損値はありません。 – krishna

+0

あなたのデータは縮退しています。たとえば、変数V7とV17は1つの値しか取らない。 – tchakravarty

+0

@tchakravartyこれは正しいですが、2つのレベルを持っているので、V7は実際にはもう少しの行だけを含んでいればOKです。 –

答えて

0
f <-file("https://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/agaricus-lepiota.data", open="r") 
data <- read.table(f, sep=",", header=F) 
str(data) 

pacman::p_load(C50) 
C5.model <- C5.0(data[1:10000,c(2:16,18:23)],data[1:10000,1],trials = 3,na.action = na.pass) 

列17は、識別のバリエーションがないため、この問題の原因です。

関連する問題