私はRとSVMの新人です。の機能をe1071
パッケージからプロファイルしようとしています。しかし、入力データのサイズを変えて、結果の良いプロファイリング範囲を得るための大きなデータセットを見つけることはできません。誰もどのようにsvm
仕事を知っていますか?どのデータセットを使用する必要がありますか? svm
への任意の特定のパラメータは、それをより困難にするでしょうか?SVM(e1071)のプロファイルをR
パフォーマンスをテストするために使用しているコマンドをいくつかコピーします。おそらくそれは、私はここにしようとしています何を得るために最も便利で簡単です:
#loading libraries
library(class)
library(e1071)
#I've been using golubEsets (more examples availables)
library(golubEsets)
#get the data: matrix 7129x38
data(Golub_Train)
n <- exprs(Golub_Train)
#duplicate rows(to make the dataset larger)
n<-rbind(n,n)
#take training samples as a vector
samplelabels <- as.vector([email protected]@data$ALL.AML)
#calculate svm and profile it
Rprof('svm.out')
svmmodel1 <- svm(x=t(n), y=samplelabels, type='C', kernel="radial", cross=10)
Rprof(NULL)
を私は
トレーニングポイントを複製しても問題はそれほど難しくありません。ほとんどのSVMではデータセット全体がメインメモリに収まる必要があるため、最終的にはメモリエラーが発生することがあります。 – karenu
なので、どのように適切なビッグデータセットを試すことができますか?私が使用できる例を知っていますか? – Manolete
はい、あなたが私の答えを見たら、私は利用可能なデータセットの数を列挙しました。また、最適なパラメータを見つけるためにパラメータチューニングを行う必要があります。最も正確なパラメータを検索する際に、他のパラメータよりも訓練に時間がかかることがあります。実践ガイドは、著者のlibsvmからチェックしてください。http://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0CFYQFjAA&url=http%3A%2F%2Fwww.csie.ntu .edu.tw%2F〜cjlin%2Fitter%2Fguide%2Fguide.pdf&ei = WtLhT46NO-jw0gG30pHVAw&usg = AFQjCNFol0McRktHC6gsBxKXqQMvmQUFeg – karenu