私は機械学習の初心者で、私が愚かであれば私を許してください。 22の属性と30000のデータポイントを持つtraindata.csvファイルがあります。機械学習(バイナリ分類)で自分のデータを処理するのに最適なトリックですか?
訓練を受けたモデルで予測を行う必要があるtestdata.csvファイルの20000個のデータポイントを予測し、モデルを訓練する必要があります(特定のアルゴリズムではありません)。
traindata.csvでは、 '0'と '1'のクラスラベルの比率は5:1です。 私のモデルでこの列車全体のデータを訓練すると、私のモデルは1よりも0を予測する傾向があることを示しています。
私のテストデータの実際の値は1:1の比率で0と1です。
私のテストデータを予測しながら0に偏っていないような列車データを前処理するには何らかの方法(ある種のノイズキャンセル)を提案できますか?
ありがとうございますが、[リンク](http://contrib.scikit-learn.org/imbalanced-learn/stable/generated/imblearn.ensemble.BalancedBaggingClassifier)のリンクのように、 'BalancedBaggingRegressor'に類似したものをお勧めしますか? .html)を回帰モデルを使用してimとして使用しますか? – RAM
あなたはクラスラベルについて話したので、あなたは分類をしています。あなたが十分なクラスを持っていて、それが序数であれば、それは回帰と同じです。これが当てはまる場合は、私があなたに提供できるものは何もありません。私は、目標次元における訓練事象の密度に関する研究を知らない。私はあなたの質問に言い直すことをお勧めします。より正式なものにして、技術的な用語を試してみてください。既存のコードも役に立ちます。どのようなモデルを使っていますか? – Keith
私は "XGBRegressor"を使用しています。クラスラベルは「0」と「1」の2つしかありません。私のトレーニングデータは私が上記のように悪いです。私はclass_weight = "balance"のようなものを与えたいので、Imは 'BalancedBaggingRegressor'を求めています – RAM