2017-10-06 13 views
1

ラベル付きトレーニングデータがあり、ラベルを予測するためにMLアルゴリズムをトレーニングしています。しかし、私のデータポイントの中には他よりも重要なものがあります。同様に、これらの点は他の点より不確実性が少ない。機械学習:重要度別にトレーニングポイントを重み付けする

モデルの各トレーニングポイントに重要度を表す重みを含める一般的な方法はありますか?その代わりにこれに対応できる特定のモデルがありますが、他のモデルはありませんか?

これらのポイントを複製したり、正確な重複を避けるためにフィーチャをわずかに塗りつぶしたり、あまり重要でないポイントをダウンサンプリングしたりすることができます。この問題にアプローチするよりエレガントな方法はありますか?

答えて

1

Scikit-learnでは、モデルをフィッティングしながらサンプルウェイトの配列を渡すことができます。 Vowpal Wabbit(オンラインMLライブラリ)にもこのオプションがあります。