私は中小企業のウェブサイトに掲載されている特定の種類のメディアを探して、約200,000のWebサイトを削っています。私はpickled linearSVCを持っています。これは、Webページ上に見つかったリンクに、探しているタイプのメディアが含まれている可能性を予測するために訓練したもので、全体的な精度は約95%です。しかし、私はスクレーパーがスクレーピングする際に定期的に新しいデータで分類器を更新したいと思います。既存のLinearSVCにトレーニングデータを追加
私の質問は、Pickled Sklearn LinearSVCをロードした場合、モデル全体を再トレーニングせずに新しいトレーニングデータを追加する方法があるかどうかです。または、以前のトレーニングデータをすべて読み込んで新しいデータを追加し、まったく新しいモデルをトレーニングする必要がありますか?
あなたが言及したモデルは、優れたバイナリテキスト分類子として機能し、SVCの精度に匹敵しますか?ありがとうございました! – dataSci
これらはすべてバイナリ分類子として機能し、いくつかの問題ではsvmよりも強くなります。 Nlpは非常に特定のドメイン(非常に内部的な逆行)です。あなたは自分自身をチェックすることができます。また、ナイーブベイズはこのプロパティを – lejlot
ハァッ、ありがとう! – dataSci