2016-08-16 17 views
1

私は中小企業のウェブサイトに掲載されている特定の種類のメディアを探して、約200,000のWebサイトを削っています。私はpickled linearSVCを持っています。これは、Webページ上に見つかったリンクに、探しているタイプのメディアが含まれている可能性を予測するために訓練したもので、全体的な精度は約95%です。しかし、私はスクレーパーがスクレーピングする際に定期的に新しいデータで分類器を更新したいと思います。既存のLinearSVCにトレーニングデータを追加

私の質問は、Pickled Sklearn LinearSVCをロードした場合、モデル全体を再トレーニングせずに新しいトレーニングデータを追加する方法があるかどうかです。または、以前のトレーニングデータをすべて読み込んで新しいデータを追加し、まったく新しいモデルをトレーニングする必要がありますか?

答えて

2

SVMにデータを追加することはできず、元のトレーニングセットに追加する場合と同じ結果が得られます。以前のソリューションから開始した拡張トレーニングセットを使用して再トレーニングするか(高速化する必要があります)、新しいデータのみをトレーニングして以前のソリューションから完全に分岐することができます。

あなたがここに実現したいものを行うことができる唯一のいくつかのモデルがあります - カーネルリッジ回帰やカーネルフィッシャー判別、または「極端な」-counterparts - - ELM例えばリッジ回帰または線形判別分析(およびそのカーネル化等がまたはEEM)であり、「オンザフライ」で新しい訓練データを追加することができるという特性を有する。

+0

あなたが言及したモデルは、優れたバイナリテキスト分類子として機能し、SVCの精度に匹敵しますか?ありがとうございました! – dataSci

+0

これらはすべてバイナリ分類子として機能し、いくつかの問題ではsvmよりも強くなります。 Nlpは非常に特定のドメイン(非常に内部的な逆行)です。あなたは自分自身をチェックすることができます。また、ナイーブベイズはこのプロパティを – lejlot

+0

ハァッ、ありがとう! – dataSci

関連する問題