いくつかの不均衡なデータ(約20:1の比率)でバイナリ分類を実行しようとしていますが、トレーニング/テストで使用されていないデータでほぼ完全なクロス検証精度です。数千の否定的な例と数百の正の例があります。このデータは正規化され、クラス分布のバランスをとるためにSMOTEが使用されました。不均衡なデータでオーバー変換する
RandomForestsクラシファイアを使用すると、KFoldのクロスバリデーションはほぼ完璧ですが、リコール/精度の値は0.1〜0.3です。私はさまざまなバランシング手法、PCA(オリジナルの機能は約80種類あります)、複数のクラシファイア、CVグリッドの最適化、そして8倍トレーニング後のツリーの組み合わせさえも試みましたが、これらのどれも結果を大幅に改善しませんでした。
新鮮なデータと比較してトレーニングがどれほどうまくいったのかちょっと驚きました。それは過度の訓練のため可能ですか?私は、木の組み合わせがこれを緩和するのに役立つことを望んでいたが、そうではなかった。 このデータは、利用可能な機能で分類するのが難しいかもしれませんが、欠けているものがありますか?
はい、絶対に可能です。あるいは、新鮮なデータは使用された列車/交差検定データとは非常に異なっているかもしれません。ちなみに、この質問はプログラミングやアプローチや手法についてはそれほど重要ではないので、これはstackoverflow.comには適していません。 https://stats.stackexchange.comでこの質問をお試しください。コード、データ、正確な手順についての詳細があります。 –