2016-04-17 13 views
1

私はデータマイニングが初めてで、意思決定ツリーのトレーニングを試みていますが、私が選択したデータセットは非常に偏りがあります。私はオンラインで検索し、バランスのとれた正確さで出会いました。私はその結果に満足していない。バイアスされたデータセットを使用したトレーニング意思決定ツリー

YES 1000件の場合と同様にデータセットをサンプリングすると良いでしょうか?NOの1000ですか?

+0

データセットを再サンプリングする代わりに、トレーニング中にウェイトを使用します。 –

答えて

0

クラスの不均衡を処理する1つの方法は、クラスの分布がおよそ半分と半分になるように、より大きなクラスをアンダーサンプリングすることです。

答えが「はい」であるとすれば、1000クラスは小さいクラスのサイズであるため、より大きなクラスのデータポイントを失うことはありません。

注:より大きいクラスのデータポイントから選択する場合は、欠損値の多いデータポイントを除外してください。

0

モデリング中に重みを付けることもできます。あなたは不均衡を補償する少数派クラスに高い重みを割り当てることができます。

関連する問題