2016-03-24 16 views
2

私の犯罪分類データセットには、has_rifleなどのインジケータ機能があります。バイナリ分類とスパースバイナリマトリックス

仕事は、データポイントが犯罪者であるかどうかを訓練し予測することです。メトリックは加重平均絶対誤差であり、人が犯罪者であり、モデルが彼/彼女がそうでないと予測する場合、体重は5と大きくなります。人が犯罪者でなく、モデルが彼/彼女がそうであると予測するならば、体重は1です。それ以外の場合、モデルは正しく予測されます。重みは0です。

私はメソッドをmlrRで使用し、しきい値を1/6に調整しました。結果はそれほど良いものではありません。 Adaboostはやや良いです。いずれも完璧ではありません。

この種のバイナリ分類の問題で、どのような方法が一般的に使用されているのだろうか、曖昧な{0,1}行列ですか?そして、加重平均絶対誤差メトリックによって測定された性能を改善する方法は?

+0

私はそれはあなたがこのチートシートで見ることができるhttp://stats.stackexchange.com/questionsにその質問をする方が良いでしょうかhttp://datascience.stackexchange.com/users/13936 –

+0

だと思います。http:/ /scikit-learn.org/stable/tutorial/machine_learning_map/index.htmlあなたがPythonでコーディングしていなくても。 – Till

答えて

0

スパースデータを扱うことは簡単な作業ではありません。情報の欠如は、分散などの機能をキャプチャするのが難しくなります。私は、部分空間のクラスタリング方法を検索するか、より具体的で柔軟な部分空間のクラスタリングを行うことをお勧めします。最後のものは、通常、関連/無関係のデータ次元を識別する。分類精度を向上させたい場合には、良いアプローチです。

関連する問題