kaggleでタイタニック生存チャレンジに取り組もうとしていますhttps://www.kaggle.com/c/titanic。Scikitランダムフォレストを使ってカテゴリのデータを学習する
私はので、私はPythonとScikit私はダミー変数に多くのレベルの彼らのカテゴリを変換学ぶscikit使用して多くの人々を見ていランダムフォレスト分類子
のために学ん使用していますRに経験していないのです。
私はこれをやっていることを理解していません。なぜレベルを数値にマップして、それで終わらせることができないのですか?
そしてまた、私は、誰かが次の操作を実行しました: 3つのレベルのカテゴリ機能PCLASSがあったが、彼はこのため3つのダミー変数を作成し、少なくとも生存率を持っていた変数を落としました。意思決定の木は相関した特徴を気にしませんでしたが、私はこれも理解できませんでした。