2016-03-27 18 views
0

比較的大量のデータ(150M)に対してSVM分類(バイナリ応答あり)を実行したい。そこで、私はトレーニングデータセット(約50,000と言う)をサンプリングし、svm{e1071}Rに使ってモデルを構築しました。今度は、その結果をデータセット全体に適用したいと考えています。 Rにこのような大きなデータセットをロードして実行する方法がわかりません。ですから、Rからモデルパラメータを抽出し、別のプラットフォームで実行する必要があります。言い換えれば、私は、全体のデータに対して同じweight.svm(確率)を取得したい:大量のデータのSVM予測

model.svm = svm(as.factor(response) ~.,data=predictors, probability=TRUE) 
predict.svm= predict(model.svm,predictors,probability=TRUE) 
weight.svm = data.frame(attr(predict.svm,"probabilities")) 

任意の提案? SVMでこの予測関数がどのように機能するかを示す簡単なテキスト/参照はありますか?どの値をmodel.svmオブジェクトから抽出すればよいですか? model.svm$SVなど?

+0

PMMLについては、https://support.zementis.com/entries/21197842-PMML-Export-Functionality-in-R-Supported-Packagesを参照してください。私はこの会社には歴史がなく、それを保証することはできませんが、さまざまなモデルの構造をエクスポートし、そのモデルで予測を行うことができると主張しています。 –

答えて

0

カーネルが線形の場合はPegasos algorithmを使用できます。このアルゴリズムは論文の7ページにあり、10行未満のコードであり、SVM最適化問題を解決するための最速のアルゴリズムの1つです。

関連する問題