私は約10^6
エントリーからなるデータセットを持っています。しかし問題はデータがImbalance
であることです。分類のための不均衡データ
私はAdboostを使用して線形分類器を作成しました。しかし、データの不均衡のために私の精度は非常に悪いです。不均衡データをどうやって警戒するか。私はGraphlab
を使用しています。ここで
は、データの分散のために簡単なコードです:
safe_loans_raw = loans[loans[target] == 1]
risky_loans_raw = loans[loans[target] == -1]
# Undersample the safe loans.
percentage = len(risky_loans_raw)/float(len(safe_loans_raw))
safe_loans = safe_loans_raw.sample(percentage, seed = 1)
risky_loans = risky_loans_raw
loans_data = risky_loans.append(safe_loans)
しかし、精度はまだ、誰もがこのための効率的なアプローチを提供することができます承認されていませんか?