これは、このフォーラムで何度も答えられるかもしれない非常に古典的な質問ですが、これを最初から明確に説明する明確な答えは見つかりませんでした。 クロスバリデーションをランダムに作成する
target_variableまず、私のデータセットと呼ばれるmy_dataが my_data =変数1、変数2、variable3はこのような4つの変数を持っているimgine、それでは、私の問題に来てみましょう。テストでそのモデルを使用し
# STEP1 : split my_data into [predictors] and [targets]
predictors = my_data[[
'variable1',
'variable2',
'variable3'
]]
targets = my_data.target_variable
# STEP2 : import the required libraries
from sklearn import cross_validation
from sklearn.ensemble import RandomForestRegressor
#STEP3 : define a simple Random Forest model attirbutes
model = RandomForestClassifier(n_estimators=100)
#STEP4 : Simple K-Fold cross validation. 3 folds.
cv = cross_validation.KFold(len(my_data), n_folds=3, random_state=30)
# STEP 5
をこの段階で、私はトレーニングデータセットに基づいて私のモデルに合うようにしたい、そして :私はすべての手順を説明し、私は立ち往生してきた場所のためにあなたの助けを頼みますよデータセットを作成し、テストターゲットを予測します。私はまた、私のモデルの性能を理解するために、MSE、r2などの必要な統計量を計算したいと思っています。
Step5の基本的なコードラインを手伝ってくれる人がいれば嬉しいです。
おかげ&に関して、
Cagdas