新しいデータと未知のデータが訓練に利用できるようになったときに、モデルを "再学習"することができるかどうかを判断しようとしています。私の考えは次のようになります: いくつかのデータセットで初期トレーニングを行い、モデルを生成します。そのモデルは、将来の使用のために保存することができます(write().save()
コマンドを使用)。私のプログラムが実行されるたびに、モデルを同じか類似のデータでトレーニングして新しいモデルを作成するのではなく、そのモデルを呼び出すことになります(load()
コマンドでモデルを読み込むこともできます)。しかし、私が扱うデータは、ある時点で、私のモデルによって作られた予測がそれ以上正しくないほど大きく変化することになります。しかし、それは間違っているということではありません。それはちょうどそれがいくつかの再調整を必要とすることを意味し、それは "再訓練"が頭に浮かぶところです。私は古いモデルを取り出し、新しいデータで再学習し、再度保存したいと思います。 Apache Sparkでこれを行うことは可能ですか?あるいは、新しいデータだけに基づいて新しいモデルを作成する必要がありますか? FYI、私は分類モデル、具体的にはランダムフォレストまたはGBTについて説明しています。Sparkでモデルを再学習する方法(可能であれば)
おかげ