私は顧客のデフォルトでローンのデータを持つファイルを持っています。このファイルには多くの変数があります。そのような変数の1つは "customer.employername"です。この変数には、顧客の雇用者名の約1000以上の固有値があります。私はロジスティック回帰モデルでこの変数を使いたいと思っています。誰がデフオフかデフューザーかを予測したいのですが、この変数は非常に多くのカテゴリ値を持っているため、これらのレベルごとにダミー変数を作成するのは難しいです。 Rの意思決定アルゴリズムを思いつき、この "customer.employername"変数のすべてのレベルを2つのグループ - グループ1(デフォルトになっている顧客のすべての雇用者名で構成)にまとめることができます。グループ2(デフォルトを設定していない顧客のすべての雇用者名で構成されています)。誰も私にこの望ましいアルゴリズムのコーディングを提案できますか?期待していただきありがとうございます複数のレベルのカテゴリ変数を2つのグループにまとめる方法を持つ決定木アルゴリズム
0
A
答えて
0
RandomForest
とお考えください。実際には、ランダムなフォレストは決定木に基づいてですが、1つの決定木を持つのではなく、一定の目標値に達するために意思決定ツリーの森林を成長させます。したがって、1つのツリーを作るのではなく、置き換えてデータセットをブートストラップすることによって、何百ものものを作ります。私の経験では、RandomForest
は、カテゴリ変数または連続変数、またはその2つを組み合わせて非常にうまく演奏します。一般的に、私は典型的には非常に再現性のある結果を得ています。また、このメソッドはRでよくサポートされており、多くのライブラリが利用できます。
関連する問題
- 1. 2つのカテゴリ変数と2つの定量変数を持つドットプロット
- 2. 2つのレベル(カテゴリとサブカテゴリ)を持つカテゴリを選択
- 3. 複数のターゲット決定木
- 4. 2つのカテゴリ変数と1つの連続変数を持つ表の複数の測定値の平均値を計算します。
- 5. カテゴリ変数を持つbiglm
- 6. 2つの数値変数を持つインスタンスプロパティを設定する方法
- 7. 2つのレベルのディレクティブの引数を持つコールコール親関数
- 8. 複数のカテゴリを持つxlsxwriterチャート
- 9. Visual Basic:複数の "レベル"を持つCallByName
- 10. カテゴリの意思決定木
- 11. 2つのカテゴリ変数と相互作用を持つ複数の線形回帰における係数とp値の解釈方法
- 12. 数値変数とカテゴリ変数を使用してsklearnを使用して決定木に適合する
- 13. Wagtailの複数レベルのカテゴリ
- 14. 複数のレベルを持つ複数行のリスト
- 15. 深さと複数の子を持つ木のFirebaseクエリ
- 16. ggplot2棒グラフと同じレベルのいくつかのカテゴリ変数
- 17. 2つのカテゴリ変数の組み合わせに基づくy値を持つggplotのグループ化バープロット?
- 18. 2つの変数を持つRubyでループする方法
- 19. 複数のカテゴリ変数を持つ機械学習のためのダミー変数の使用
- 20. 複数のパラメータを持つLINQグループBy
- 21. 複数のグループを持つJavascriptグリッド
- 22. 複数のグループを持つSSRSマトリックス
- 23. cxx複数のidを持つMongoDBグループ
- 24. 複数のグループを持つmysqlクエリ?
- 25. 2つの変数を持つ表の行を数える方法
- 26. 2つのアクションとカテゴリを持つインテントフィルター
- 27. 2つのカテゴリ変数のR棒グラフ
- 28. 2つのカテゴリ変数のクロス集計
- 29. Seaborn:グループごとに2つの変数を持つ棒グラフを作成する方法は?
- 30. 2つの変数をグループ化して要約する方法
私はそれを調べます。私はrpart関数を使ってこの問題を解決しようとしていますが、Rに少ししか新しいことがないので、結果を得るには少し時間がかかります。 – Rookie
ある意味では、 'Rpart'と' RandomForest'の間に大きな違いはありません。彼らは両方とも予測木を構築しているからです。 RFの最大の利点は、あなたがたくさんの樹木を建てていることです。私が本当にRFを気に入る理由の1つは、強い相関があるかもしれないいくつかの自己相関変数がある場合、RFは過密になる可能性が低いということです。 1つのフォレストだけを実行すると、最終的にどのようなツリー構造になっているかに応じて、ランダムまたは悪い適合を得るという深刻な危険にさらされます。 RFはRpartのように考えるが、何度もブートストラップされている。 – SeldomSeenSlim