2013-01-16 15 views
7

の計算:...、すなわち私はエントロピーを計算するための式を知っていますデシジョンツリー内のエントロピー(機械学習)

H(Y) = - ∑ (p(yj) * log2(p(yj))) 

を属性を選択し、それぞれの値のチェック対象の属性値のため ので、P(YJ)ノードNのパターンの割合はカテゴリyjにあります.1つはターゲット値が真、偽が1つです。

しかし、私はtarget属性がprice、したがってrangeであるデータセットを持っています。このようなデータセットのエントロピーを計算するには?

は(表記:http://decisiontrees.net/decision-trees-tutorial/tutorial-5-exercise-2/

答えて

6

をあなたが最初のバケット数に数値的にそれをソートするように、いくつかの方法で設定したデータをdiscretiseする必要があります。離散化のための多くの方法があり、一部は監督されています(つまり、目標関数の値を考慮しています)。 This paperは、かなり一般的な用語で使用される様々な手法の概要を示しています。詳細については、Wekaのような機械学習ライブラリに多くの離散化アルゴリズムがあります。

連続分布のエントロピーはdifferential entropyと呼ばれ、データが何らかの方法で(通常は分布していると仮定して)推定し、通常の方法で分布を推定し、これを使ってエントロピー値。

+0

どのように範囲を決定できますか?データをソートし、範囲を決める方法を考えてみましょう。 –

+0

これには多くの方法がありますが、私は答えに多くの情報を追加してくれます... –

+0

属性は2つの値を持つバイナリ...感謝@Vicスミス! –

0

Vic Smithとコンクリートでは、離散化は一般的には良い方法です。私の経験では、ほとんどの一見連続的なデータは実際には「塊」であり、ほとんど失われません。

しかし、離散化が他の理由で望ましくない場合、エントロピーは連続分布についても定義されています(たとえば、http://en.wikipedia.org/wiki/Normal_distributionなどのあなたのお気に入りのディストリビューションのウィキペディアを参照してください)。

1つのアプローチは、ある形式の分布を仮定することです。正規化、対数正規化などを行い、推定パラメータからエントロピーを計算する。私はボルツマンエントロピー(連続)とシャノンエントロピー(離散)のスケールが同じスケール上にあるとは思わないので、それらを混ぜ合わせません。

関連する問題