トレーニングデータセットでは、Class Imbalance Problem
を扱い、クラスラベルの大部分が1(他のクラスラベルが0)の入力テストデータセットのbinary-classification
を処理する必要があります。 - 0
又は1
最後の列はclass-label
あるこの不均衡なクラスの歪んだデータセットを扱うにはどうすればいいですか?
93.65034,94.50283,94.6677,94.20174,94.93986,95.21071,1
94.13783,94.61797,94.50526,95.66091,95.99478,95.12608,1
94.0238,93.95445,94.77115,94.65469,95.08566,94.97906,1
94.36343,94.32839,95.33167,95.24738,94.57213,95.05634,1
94.5774,93.92291,94.96261,95.40926,95.97659,95.17691,0
93.76617,94.27253,94.38002,94.28448,94.19957,94.98924,0
:例えば
は、次のトレーニングデータの一部です。実際のデータセットは、10:1
のクラスの比率で非常に歪められています。約700サンプルは、class label
として0を持ち、残りの6800は、class label
として1を持ちます。
上述し
のみ与えられたデータ・セット内のすべてのサンプルの数であるが、実際のデータセットは、事実にもかかわらず、約90%
1
として
class-label
、及び
class-label
は
0
であるとともに、残りのサンプルのを含んでいます多かれ少なかれ、すべてのサンプルが非常に似ているということです。
この種のデータセットを処理するにはどの分類器を使用すべきですか?
私は既にlogistic-regression
とsvm
とclass-weight
パラメータを"balanced"
として設定しましたが、精度が大幅に向上しませんでした。
これはプログラミング上の問題ではないので、[Cross Validated](http://stats.stackexchange.com/)でより良い回答を得るつもりです – Tchotchke