Scikitランダムフォレストを使ってカテゴリのデータを学習する

kaggleでタイタニック生存チャレンジに取り組もうとしていますhttps://www.kaggle.com/c/titanic。Scikitランダムフォレストを使ってカテゴリのデータを学習する

私はので、私はPythonとScikit私はダミー変数に多くのレベルの彼らのカテゴリを変換学ぶscikit使用して多くの人々を見ていランダムフォレスト分類子

のために学ん使用していますRに経験していないのです。

私はこれをやっていることを理解していません。なぜレベルを数値にマップして、それで終わらせることができないのですか？

そしてまた、私は、誰かが次の操作を実行しました： 3つのレベルのカテゴリ機能PCLASSがあったが、彼はこのため3つのダミー変数を作成し、少なくとも生存率を持っていた変数を落としました。意思決定の木は相関した特徴を気にしませんでしたが、私はこれも理解できませんでした。

出典

2016-08-29 Vikash B

レベルを数値にマップするだけでは、pythonは数値を数値として扱います。つまり、レベルが最初に順序付けられていなくても、数値的には1<2などです。「距離」問題について考えてみましょう。 1と2の間のこの距離は1であり、1と3の間の距離は2です。しかし、あなたのカテゴリー変数間の元の距離はどうでしたか？たとえば、 "バナナ" "ピーチ"と "リンゴ"の距離はどうですか？あなたは彼らがすべて平等であると思いますか？

ダミー変数について：3つのクラスがあり、3つのダミー変数を作成した場合、それらは単に相関されるだけでなく、線形依存です。これは決して良いことではありません。

出典

2016-08-29 14:08:02 lanenok

Scikitランダムフォレストを使ってカテゴリのデータを学習する

答えて

関連する問題