2017-03-27 14 views
0

私は顧客のデフォルトでローンのデータを持つファイルを持っています。このファイルには多くの変数があります。そのような変数の1つは "customer.employername"です。この変数には、顧客の雇用者名の約1000以上の固有値があります。私はロジスティック回帰モデルでこの変数を使いたいと思っています。誰がデフオフかデフューザーかを予測したいのですが、この変数は非常に多くのカテゴリ値を持っているため、これらのレベルごとにダミー変数を作成するのは難しいです。 Rの意思決定アルゴリズムを思いつき、この "customer.employername"変数のすべてのレベルを2つのグループ - グループ1(デフォルトになっている顧客のすべての雇用者名で構成)にまとめることができます。グループ2(デフォルトを設定していない顧客のすべての雇用者名で構成されています)。誰も私にこの望ましいアルゴリズムのコーディングを提案できますか?期待していただきありがとうございます複数のレベルのカテゴリ変数を2つのグループにまとめる方法を持つ決定木アルゴリズム

答えて

0

RandomForestとお考えください。実際には、ランダムなフォレストは決定木に基づいてですが、1つの決定木を持つのではなく、一定の目標値に達するために意思決定ツリーの森林を成長させます。したがって、1つのツリーを作るのではなく、置き換えてデータセットをブートストラップすることによって、何百ものものを作ります。私の経験では、RandomForestは、カテゴリ変数または連続変数、またはその2つを組み合わせて非常にうまく演奏します。一般的に、私は典型的には非常に再現性のある結果を得ています。また、このメソッドはRでよくサポートされており、多くのライブラリが利用できます。

+0

私はそれを調べます。私はrpart関数を使ってこの問題を解決しようとしていますが、Rに少ししか新しいことがないので、結果を得るには少し時間がかかります。 – Rookie

+0

ある意味では、 'Rpart'と' RandomForest'の間に大きな違いはありません。彼らは両方とも予測木を構築しているからです。 RFの最大の利点は、あなたがたくさんの樹木を建てていることです。私が本当にRFを気に入る理由の1つは、強い相関があるかもしれないいくつかの自己相関変数がある場合、RFは過密になる可能性が低いということです。 1つのフォレストだけを実行すると、最終的にどのようなツリー構造になっているかに応じて、ランダムまたは悪い適合を得るという深刻な危険にさらされます。 RFはRpartのように考えるが、何度もブートストラップされている。 – SeldomSeenSlim

関連する問題