私は不均衡な訓練データを持っています。私はwekaでロジスティック回帰を使って分類しています。不均衡なデータをwekaでどのように分類するのですか?
良いと悪い2つのクラスがあります。 Goodは75000インスタンス、不良は 3000です。テストデータには10000個の良好なデータがあります。
私が訓練するとき、それは良いデータに傾きます。つまり、ほとんどすべての悪いインスタンスを良好に分類します。私は何をすべきか ? 私は75000の代わりに10000の良いインスタンスをトレーニングデータに入れようとしましたが、それでも問題は同じです。
情報なしで伝えるのは難しいです。あなたはまだあなたのデータセットに匿名一意識別子を持っていますか?その場合は、その属性を削除します。 – knb