ランダムフォレストモデルを保存するには、次のコードを使用しています。私は訓練されたモデルを保存するためにcPickleを使用しています。新しいデータが表示されるので、モデルを徐々に訓練できますか? 現在、トレインセットには約2年のデータがあります。別の2年を訓練し、既存の保存モデルに追加する方法がありますか?python sklearnを使用したランダムフォレストモデルのインクリメンタルトレーニング
rf = RandomForestRegressor(n_estimators=100)
print ("Trying to fit the Random Forest model --> ")
if os.path.exists('rf.pkl'):
print ("Trained model already pickled -- >")
with open('rf.pkl', 'rb') as f:
rf = cPickle.load(f)
else:
df_x_train = x_train[col_feature]
rf.fit(df_x_train,y_train)
print ("Training for the model done ")
with open('rf.pkl', 'wb') as f:
cPickle.dump(rf, f)
df_x_test = x_test[col_feature]
pred = rf.predict(df_x_test)
EDIT 1:4年間のデータを一度にモデル化する計算能力はありません。
として、クラウドに大規模なマシンのモデルフィッティングのコードを実行し、より高速なアンサンブルツリーベースのアルゴリズムを使用しますランダムな森林?私は新しいモデルがどのように実行されるのか分かりません。 SGDにはpartial_fit APIがありますので、オンライン学習に使用できます – Tammy
SGDクラシファイアのトレーニングを行い、パフォーマンスをRFモデルのパフォーマンスと比較しようとしましたか?これは、その質問に答えるための唯一の方法です。 –
は、可能なステップを進めるために更新されました。 –