2016-09-13 9 views
0

データのクリーニング、プリプロセンス、およびいくつかの異なるモデル(例:R Studio)での実験をしてから、ソリューションを現実的に展開するにはどうすればよいですか。 モデルがシンプルなモデル、例えばデシジョンツリー、ロジスティック回帰モデルであり、モデルが明白​​であり、R Predictorモデルがhttpエンドポイントなどの商用Rサーバーにデプロイされているのは簡単です。複雑な機械学習予測プログラムをどのように導入すればよいですか?

私の質問は、 (例えば、PCA変換、RBFカーネル、または100個のツリーのランダムフォレスト)を使用している場合は、Rスクリプトを事前処理し、PCAを適用したり、RBF事前処理スクリプトなどをデプロイメントサーバーに適用しなければならない?

これはRBFの意味ですか私のSVMプレディクタと一緒にすべての元のトレーニングデータセットをホストする必要がありますか? RBF変換はトレーニングセットまたは少なくともサポートベクトルの関数である。

ランダムフォレストの場合、非常に大きなモデルの一部として、500台ほどのツリーをアップロードする必要があると仮定します。

答えて

0

まず、pmmlpmmlTransformationsパッケージのコンボ、またはr2pmmlパッケージのいずれかを使用してPMML data formatにあなたのR・ソリューション(データ前処理段階とモデル)をエクスポートします。次に、Openscoring REST Webサービス、JPMML-Spark、または配備のニーズに合ったPMML統合を使用して、PMMLソリューションを配備します。

PMML等

+0

ありがとう、便利です。私は、PMMLがモデルや前処理機能を表現できることがわかります。そしてそれはランダムフォレストからの100sまたはTreesをサポートするためにスケールするでしょう。私はRBF(もっと勉強する必要があります)に少しばかげていると思いますが、RBKカーネルの変換はトレーニングセットのデータの機能であり続けていると思いました。 RBFカーネル変換を導入するには、トレーニングセットをPredictorデプロイメントに配布する必要があります。 – user2129049

+0

RBFカーネルでSVMをトレーニングする: 'rbfSvm = e1071 :: svm(..、kernel =" radial "、..)';次にPMMLにエクスポートする: 'pmml(rbfSvm)'。あるいは、あなたのRコードの一部を表示して、それをPMML化する最も簡単な方法を分析することができますか? – user1808924

0

RBFカーネル、ツリーアンサンブル、この問題のために純粋なRバニラ溶液でPCA、SVMを表す問題はありません。アンサンブル法のほとんどは、学習されたモデルをダンプ/保存するためのユーティリティを提供します。学習は非常に時間がかかり、一度行う反復的なプロセスです。投稿後の学習はあなたのRオブジェクトを保存/ダンプします。デプロイメントではスコアリングコードしかありません。スコアリングコードはすべてのデータ変換を行い、後でスコアリングを行います。

通常の前処理では、トレーニングで使用されたRコードを再利用できます。 PCAのような複雑な処理では、最終的なモデルを保存し、保存されたPCA Rオブジェクトにデータをスコアリング/ランするだけです。最後に、前処理後のスコア/学習したモデルのデータを実行し、最終結果を得る。

関連する問題