2012-12-12 9 views
6

私は機械学習には比較的新しいので、決定木の誘導を物事の壮大な計画に置こうとしています。意思決定ツリー(例えば、C4.5またはID3で構築されたもの)は、パラメトリックまたはノンパラメトリックであると考えられていますか?実際の値の決定スプリットポイントは、フィーチャ値のある分布、たとえば平均から決定されるため、実際にパラメトリックであると推測します。しかし、オリジナルのトレーニングデータをすべて保持するというノンパラメトリックな特性は共有していません(kNNと同様)。デシジョンツリー(C4.5など)はノンパラメトリック学習と見なされますか?

答えて

9

「パラメトリック」という用語は、データの分布を定義するパラメータを指します。 C4.5のような決定木はデータの分布について仮定しないので、それらはノンパラメトリックである。 Gaussian Maximum Likelihood Classification(GMLC)は、データが多変量ガウス分布に従うと仮定しているため(クラスは平均と共分散によって特徴付けられる)、パラメトリックです。最後のセンテンスに関して、トレーニングデータ(例えば、インスタンスベースの学習)を保持することは、ノンパラメトリックな分類器すべてに共通ではない。たとえば、人工ニューラルネットワーク(ANN)はノンパラメトリックであると考えられますが、トレーニングデータは保持されません。

+0

実際の値が分配によって決定される決定ノードの分割点の考え方はどうですか? – stackoverflowuser2010

+1

配布は必要ありません。すべてのインスタンスを連続属性の値でソートし、情報利得を最大にする2つの値に分割することができます。データの分布については仮定されていない(すなわち、データが正常にまたは他の方法で分散されていると仮定することはない)。 – bogatron

+0

しかし、ディシジョンツリーの特定の実装では、ディストリビューションを使用して分割を実行するとします。それで、それはパラメトリックなこの実装になりますよね? – stackoverflowuser2010