2016-08-29 6 views
1

kaggleでタイタニック生存チャレンジに取り組もうとしていますhttps://www.kaggle.com/c/titanicScikitランダムフォレストを使ってカテゴリのデータを学習する

私はので、私はPythonとScikit私はダミー変数に多くのレベルの彼らのカテゴリを変換学ぶscikit使用して多くの人々を見ていランダムフォレスト分類子

のために学ん使用していますRに経験していないのです。

私はこれをやっていることを理解していません。なぜレベルを数値にマップして、それで終わらせることができないのですか?

そしてまた、私は、誰かが次の操作を実行しました: 3つのレベルのカテゴリ機能PCLASSがあったが、彼はこのため3つのダミー変数を作成し、少なくとも生存率を持っていた変数を落としました。意思決定の木は相関した特徴を気にしませんでしたが、私はこれも理解できませんでした。

答えて

4

レベルを数値にマップするだけでは、pythonは数値を数値として扱います。つまり、レベルが最初に順序付けられていなくても、数値的には1<2などです。 「距離」問題について考えてみましょう。 1と2の間のこの距離は1であり、1と3の間の距離は2です。しかし、あなたのカテゴリー変数間の元の距離はどうでしたか?たとえば、 "バナナ" "ピーチ"と "リンゴ"の距離はどうですか?あなたは彼らがすべて平等であると思いますか?

ダミー変数について:3つのクラスがあり、3つのダミー変数を作成した場合、それらは単に相関されるだけでなく、線形依存です。これは決して良いことではありません。

関連する問題