低頻度用語 - Naive Bayes精度向上

Naive Bayesを使用して分類を適用している何千もの要因（カテゴリ変数）があります。低頻度用語 - Naive Bayes精度向上

私の問題は、私のデータセットにはほとんど何も現れない多くの要因があるため、予測のパフォーマンスが低下するようです。

実際、私は、非常に数回起こっているカテゴリ変数を削除すると、私の正確さが大幅に向上していることに気付きました。しかし、理想的には私のすべての要素を守りたいのですが、そうするベストプラクティスは何か分かりますか？

大変ありがとうございました。

出典

2017-06-05 ML_Enthousiast

コメントが長すぎます。

正確な予測を行うのに十分なデータがないため、頻度の低い用語が精度に悪影響を与えることがあります。したがって、訓練セットの観察では、検証セットについて何も言わない場合があります。

すべての最低頻度の観測値を1つの値にまとめることができます。オフサイド、私は正しいしきい値が何であるか分からない。あなたは、5回以内に発生したすべてのものを取り、それらを一緒にまとめることから始めることができます。

出典

2017-06-05 19:48:33

ちょっとゴードン、あなたの返事をありがとう。 50回未満で出現する言葉を削除することで、私がやったことがあります（最高頻度では400回以上出現します）。そうすることで、私は80％の精度を持っています。しかし、私の問題は、私が考える小さな言葉も含める必要があるということです。そして私がそうするならば、それはそれが価値がない正確さの20/30％に落ちます... –

@ ML_Enthousiast。。。 50のしきい値が高すぎる可能性があります。結果の強い低下は、まれな用語間の相関を示唆している。おそらく80％はかなり良いでしょう。 –

しかし、この場合、頻繁に出現していない用語を含めて、すべての用語を保存したい場合は、ベストプラクティスは何ですか？ –

低頻度用語 - Naive Bayes精度向上

答えて

関連する問題