1
カスタマーサポートドメインで感情分析を実行するためにapache mahoutを使用しています。私は適切な訓練データセットを得ることができないので、私は自分自身を作った。今私は肯定的な感情のための100のサポートメールと否定的な100のメールを持っています。ベイジアン分類子のトレーニングデータサイズ
しかし問題は、私は正確さを達成することができないということです。それは約55%のどこかにとどまっています。これは哀れです。約70%前後の精度が満足できるでしょう。また、私はapache mahoutの無料ナイーブベイズ分類子を使用していることにも注意してください。
正確に質問になると、データセットのサイズが小さくなると精度が低下しますか?そうでない場合は、どこで微調整すればよいですか?
トレーニングデータのサイズは非常に小さいです。これが主な問題です。また、IMOステミングは一般にナイーブベイズの精度を低下させる。 –