2017-06-05 17 views
0

Naive Bayesを使用して分類を適用している何千もの要因(カテゴリ変数)があります。低頻度用語 - Naive Bayes精度向上

私の問題は、私のデータセットにはほとんど何も現れない多くの要因があるため、予測のパフォーマンスが低下するようです。

実際、私は、非常に数回起こっているカテゴリ変数を削除すると、私の正確さが大幅に向上していることに気付きました。しかし、理想的には私のすべての要素を守りたいのですが、そうするベストプラクティスは何か分かりますか?

大変ありがとうございました。

答えて

0

コメントが長すぎます。

正確な予測を行うのに十分なデータがないため、頻度の低い用語が精度に悪影響を与えることがあります。したがって、訓練セットの観察では、検証セットについて何も言わない場合があります。

すべての最低頻度の観測値を1つの値にまとめることができます。オフサイド、私は正しいしきい値が何であるか分からない。あなたは、5回以内に発生したすべてのものを取り、それらを一緒にまとめることから始めることができます。

+0

ちょっとゴードン、あなたの返事をありがとう。 50回未満で出現する言葉を削除することで、私がやったことがあります(最高頻度では400回以上出現します)。そうすることで、私は80%の精度を持っています。しかし、私の問題は、私が考える小さな言葉も含める必要があるということです。そして私がそうするならば、それはそれが価値がない正確さの20/30%に落ちます... –

+0

@ ML_Enthousiast。 。 。 50のしきい値が高すぎる可能性があります。結果の強い低下は、まれな用語間の相関を示唆している。おそらく80%はかなり良いでしょう。 –

+0

しかし、この場合、頻繁に出現していない用語を含めて、すべての用語を保存したい場合は、ベストプラクティスは何ですか? –

関連する問題