私は、Caretパッケージによって作成されたモデルの決定境界をプロットしたいと思います。理想的には、私は、Caretの任意のクラシファイアモデルの一般的なケースメソッドを希望します。しかし、私は現在kNNメソッドを使って作業しています。私はUCIのワイン品質データセットを使用していますが、これは私が今作業しているコードです。CaretパッケージのkNNモデルの決定境界グラフを作成する方法は?
私はRで一般的なk最近傍の方法で動作するこの方法を見つけましたが、キャレットにマッピングする方法を見つけ出すことはできません - >https://stats.stackexchange.com/questions/21572/how-to-plot-decision-boundary-of-a-k-nearest-neighbor-classifier-from-elements-o/21602#21602
library(caret)
set.seed(300)
wine.r <- read.csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv', sep=';')
wine.w <- read.csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv', sep=';')
wine.r$style <- "red"
wine.w$style <- "white"
wine <- rbind(wine.r, wine.w)
wine$style <- as.factor(wine$style)
formula <- as.formula(quality ~ .)
dummies <- dummyVars(formula, data = wine)
dummied <- data.frame(predict(dummies, newdata = wine))
dummied$quality <- wine$quality
wine <- dummied
numCols <- !colnames(wine) %in% c('quality', 'style.red', 'style.white')
low <- wine$quality <= 6
high <- wine$quality > 6
wine$quality[low] = "low"
wine$quality[high] = "high"
wine$quality <- as.factor(wine$quality)
indxTrain <- createDataPartition(y = wine[, names(wine) == "quality"], p = 0.7, list = F)
train <- wine[indxTrain,]
test <- wine[-indxTrain,]
corrMat <- cor(train[, numCols])
correlated <- findCorrelation(corrMat, cutoff = 0.6)
ctrl <- trainControl(
method="repeatedcv",
repeats=5,
number=10,
classProbs = T
)
t1 <- train[, -correlated]
grid <- expand.grid(.k = c(1:20))
knnModel <- train(formula,
data = t1,
method = 'knn',
trControl = ctrl,
tuneGrid = grid,
preProcess = 'range'
)
t2 <- test[, -correlated]
knnPred <- predict(knnModel, newdata = t2)
# How do I render the decision boundary?
これは非常に良い応答であり、私ははるかに近いと思います。決定境界をプロットしようとした私のコードの要点を更新しました:https://gist.github.com/jameskyle/729945f6fa38a343b8ab。しかし、私が得るグラフは、怪物のような格子縞の混乱です(http://i.imgur.com/TYCpleT.png)。 これは実装上のエラーによるものですか、それともデータそのものですか?アルコール+塩化物を私のx、yとして選んだのは、それが最も重要な特徴であったからです。 –
私は、テストセットを生成するのではなく、虹彩データを分割するスクリプトを虹彩に基づいて作成しました。私は同様の分数グラフを取得します。意思決定の境界線がどのようにうまくいくのかと思うのですか? スクリプト:https://gist.github.com/jameskyle/ffed976dfef1cbc778d5 グラフ:http://i.imgur.com/UX1xmp9.png –
新しいデータ部分では、データはグリッドのようにする必要があります。私は私の答えを更新します。 – chappers