2016-08-04 10 views
2

私はLinearSVCを使ってテキストを(私の場合はツイート)分類するためにScikit-Learnを使用しています。訓練セットで定義されているカテゴリのいずれかに適合していない場合、分類されていないテキストを分類する方法はありますか?たとえば、スポーツ、政治、映画のカテゴリがあり、コンピューティングに関するツイートの分類を予測しようとすると、それは未分類のままでなければなりません。Scikit-Learn-「分類されていない」カテゴリを追加するには?

答えて

1

教師なし学習のように、追加のカテゴリを追加することはできません。

したがって、ヒューリスティックを使用します。各カテゴリの確率を予測してください。次に、4つ以上の確率がほぼ等しい場合は、サンプルが「不明」であると言えます。 このアプローチでは、LinearSVCまたは他のタイプのサポートベクター分類器は、自然に当てはまるわけではないので、 が適切です。別の分類子(ロジスティック回帰、ベイズ、樹木、森林)はより良いでしょう