0

ノードでは、カテゴリフィーチャのために、フィーチャのm個の異なる値を2つのグループに分割するすべての(2^m -2)/ 2の可能な方法を現在試しています。あるフィーチャと同じ値を持つすべてのサンプルは、そのフィーチャを考慮するとグループとして一緒に移動されます。意思決定ツリーのカテゴリ機能を扱うための戦略?

問題は、mが35(国など)の場合、17兆の分割を試す必要があることです。

カテゴリの機能を処理する別の方法はありますか?

+1

Don Coppersmith et al。による「決定木の公称属性の分割」を検索してください。 (はい、これは[Don Coppersmith](https://en.wikipedia.org/wiki/Don_Coppersmith)です: – blazs

答えて

0

http://uk.mathworks.com/help/stats/splitting-categorical-predictors-for-multiclass-classification.html?s_tid=gn_loc_dropはこの非常に問題を記述しています。要するに:これはバイナリ分類問題がある場合

  • 、M-1このシーケンスを分割する方法を試行し、このカテゴリーの平均応答に応じてm値を注文します。

  • 他の場合、このリンクには、Coppersmith、Hong、Hoskingによる発見を含むヒューリスティックしか記述されていません。古典的なものはダミー化です。それぞれm個のスプリットを試してください。それぞれのスプリットは、右側のブランチに1つの値、左側のブランチにm-1の値で構成されています。

+0

はい、私はバイナリ分類をしています。私はこれが何を意味するのかはよく理解していません "ツリーは、クラスのうちの1つ(分類用)の平均応答(回帰)またはクラス確率によってカテゴリを並べ替えることができます。順序付きリスト。私は回帰をしていないので、私はクラスの確率でm値を注文していますか?それは何ですか?そのような確率をどのように計算しますか? – Jobs

+0

「このカテゴリの平均応答に応じてm個の値を並べ替える」ということを具体的に説明できますか? – Jobs

+1

バイナリ分類の場合、レスポンスは0または1としてエンコードできます。m個の値のそれぞれについて、フィーチャがこの値をとっているすべてのサンプルのレスポンスの平均を計算します。これは[0,1]で実数です。これらの実数に従ってm個の値を並べ替えます。 – jrouquie

関連する問題