0
Naive Bayesを使用して分類を適用している何千もの要因(カテゴリ変数)があります。低頻度用語 - Naive Bayes精度向上
私の問題は、私のデータセットにはほとんど何も現れない多くの要因があるため、予測のパフォーマンスが低下するようです。
実際、私は、非常に数回起こっているカテゴリ変数を削除すると、私の正確さが大幅に向上していることに気付きました。しかし、理想的には私のすべての要素を守りたいのですが、そうするベストプラクティスは何か分かりますか?
大変ありがとうございました。
ちょっとゴードン、あなたの返事をありがとう。 50回未満で出現する言葉を削除することで、私がやったことがあります(最高頻度では400回以上出現します)。そうすることで、私は80%の精度を持っています。しかし、私の問題は、私が考える小さな言葉も含める必要があるということです。そして私がそうするならば、それはそれが価値がない正確さの20/30%に落ちます... –
@ ML_Enthousiast。 。 。 50のしきい値が高すぎる可能性があります。結果の強い低下は、まれな用語間の相関を示唆している。おそらく80%はかなり良いでしょう。 –
しかし、この場合、頻繁に出現していない用語を含めて、すべての用語を保存したい場合は、ベストプラクティスは何ですか? –