特に、RandomForestModelを使用して、spark-mllibでクラスを作成しようとしています。spark-mllib retraining saved models
私はこの例をspark(RandomForestClassificationExample.scala)から見てきましたが、私は幾分拡張されたアプローチが必要です。
私はモデルを訓練することができ、将来の使用のためにモデルを保存するだけでなく、それをロードしてさらに訓練できるようにする必要があります。同様に、データセットを拡張して、再びトレーニングします。
追加するには、新しい/拡張データセットを使用してモデルをトレーニングする際の出発点として、以前に訓練されたモデルパラメータを使用することが理にかなっています。しかし、あなたが過度に適合していないかどうかを確認するためのパラメータについては、_clean slate_状態でモデルを実行する必要があります。したがって、私はeliasahに賛成することはほとんど意味がないことに同意します。 – TDrabas
オンライン学習が大きな分野であることを考えると、なぜさらなるトレーニングは意味をなさないのでしょうか?可能なときはいつでも基本的なSGDを少なくともサポートするのは間違いではありません。 – user31415