2017-08-01 4 views
0

新しいデータと未知のデータが訓練に利用できるようになったときに、モデルを "再学習"することができるかどうかを判断しようとしています。私の考えは次のようになります: いくつかのデータセットで初期トレーニングを行い、モデルを生成します。そのモデルは、将来の使用のために保存することができます(write().save()コマンドを使用)。私のプログラムが実行されるたびに、モデルを同じか類似のデータでトレーニングして新しいモデルを作成するのではなく、そのモデルを呼び出すことになります(load()コマンドでモデルを読み込むこともできます)。しかし、私が扱うデータは、ある時点で、私のモデルによって作られた予測がそれ以上正しくないほど大きく変化することになります。しかし、それは間違っているということではありません。それはちょうどそれがいくつかの再調整を必要とすることを意味し、それは "再訓練"が頭に浮かぶところです。私は古いモデルを取り出し、新しいデータで再学習し、再度保存したいと思います。 Apache Sparkでこれを行うことは可能ですか?あるいは、新しいデータだけに基づいて新しいモデルを作成する必要がありますか? FYI、私は分類モデル、具体的にはランダムフォレストまたはGBTについて説明しています。Sparkでモデルを再学習する方法(可能であれば)

おかげ

答えて

0

はい

あなたは古いものと新しいデータを組み合わせて、利用可能なすべてのデータを使用して新しいモデルをトレーニングすることができます。

ません

ツリーモデルとインクリメンタル訓練のためのオプションがありません。古いモデルから始めて、新しいデータを追加するだけではいけません。たぶん

:あなたはアンサンブルモデルのいくつかの種類を作成することができ

。新しいデータのみを新しいモデルに訓練し、古いモデルと新しいモデルの両方を使用して予測を行い、両方の確率を重み付けします。それは組み込みではありませんので、あなた自身で実装するでしょう。

関連する問題