2016-04-24 13 views
1

現在、私はプロジェクトに取り組んでいます。私は分類器の精度がトレーニングデータセットのサイズによって変動しているという問題に遭遇しました。 EXの場合 :さまざまなサイズのトレーニングデータの精度のばらつき

Training data set% |Accuracy % 
10%    | 50 
20%    | 60 
30%    | 55 
40%    | 65 
50%    | 80 
60%    | 70 
....    | ... 

私の疑問は、これらの機能は非常に多様であり、何の支配的な機能はありませんfeatures..like私が弱い選んだということです。誰にもこれに対する他の解決策がありますか?

+1

私は、各実験を1回だけ実行したと推測しています(トレーニングセットサイズごとに)。もしそうなら、トレーニングサイズごとに5回の実行で平均精度を報告できますか? –

+0

いいえ、それぞれの実験を31回実行しました。おそらく私のデータセットが非常に限られているからかもしれません。だから、私はこの種の結果を得ている。 – Revanth

答えて

0

このような「変動」は、モデルの分散が大きいことを意味します。これはおそらくデータセットのサイズに起因します。変動を観察したくない場合は、トレーニングセットのサイズ(10%を使用してください)は、問題を表現できるだけの大きさでなければなりません。問題が少なくとも複雑で、2Dの単純なバイナリ分類ではない場合は、〜10,000サンプルを収集する必要があることを意味します(したがって、10%は1000です)。そうでなければ、これについて何も変わっていない。この精度をブートストラップ方式で収集することができます(トレーニングセットを作成するための置換えによるサンプル)。時間の乱れを繰り返します。統計的な意味を犠牲にすることなく結果を少しでも安定させる必要があります。

関連する問題