ランダムフォレストをscikitで使用して学習します。 RFがデータに不備があり、予測結果が不良です。ランダムフォレストとの特定クロス検証
オーバーフィットは、RFのパラメータに依存しない: NBtree、Depth_Tree
オーバーフィットは、多くの異なるパラメータ(grid_search渡ってそれをテスト済み)で発生します。
対処方法: フィッティングに影響を与えるために、最初のデータを微調整し、いくつかの結果をダウンサンプリングします(手動でノイズサンプルを前処理します)。
Loop on random generation of RF fits,
Get RF prediction on the data for prediction
Select the model which best fits the "predicted data" (not the calibration data).
このモンテ・カルロスは、非常にランダムな森に クロスバリデーションを行うための別の方法があるかどうかだけで不思議 、消費していますか? (すなわち、ハイパーパラメータ最適化ではない)。 scikit学習における任意の分類器で
ドキュメントを読んでください。特に[this](http://scikit-learn.org/stable/modules/grid_search.html#grid-search)。 – sascha
モデルがオーバーフィットしていると言っているときにoob_scoreや精度を使用していますか? –
混乱行列を見ると偽陽性/陰性... トレーニングはOKです。 しかし、サンプルが一貫していません(通常は悪い、場合によってはOK)。 – Brook