私はランダムなフォレストを使用して分類の問題を抱えています。レスポンスには5つのクラスがあります。すべてのクラスはトレーニングセットに均等に分散されていますが、テストデータセットでは2つのクラスが大部分を占めています。それが挑戦的なのは、検証セットでは、これらの2つのクラスも最悪の精度を持つことがわかります。だから私の質問は、私の全体的な予測を改善するために、これらの2つのクラスの分類精度を向上させる方法があるかどうかです。機械学習 - 特定のクラスの分類を改善する方法
入力があれば幸いです!
返信いただきありがとうございます!私はこれが理にかなっていると思うが、RのrandomForestパッケージでこれをどのように達成するのだろうか? –
私は専門家ではありません。しかし、このSEの質問と回答を参照してください:http://stats.stackexchange.com/questions/46963/how-to-control-the-cost-of-misclassification-in-random-forests。 個人的には、私は第2の答えの解決策(1)から始めるだろう - 「意図的に不均衡なデータセット」。 –