2017-09-01 4 views
0

ランダムフォレストでのツリーの構築に関して疑問があります。 ツリー構築の私の理解では、このです:ランダムフォレストツリーの終点

Suppose 
----------- 
N (total records of data set) =1000 
M (total features) =30 
n (Subset) = 500 
m (fixed features to be used in RF) = 3 

First Tree 
----------- 
1) Random sample data S1 (n) 
2) Take m features from M eg: m2, m16, m29 
3) Identify the best attribute – eg: m16 --> root node 
4) Split S1 on m16 – gives 2 new subsets eg: S1_a and S1_b 

5) For S1_a, select m eg: m1,m5,m10 
6) Identify the best attribute – eg: m1 
7) Split S1_a into S1_a1, S1_a2 

8) For S1_b, select m eg: m11,m15,m10 
9) Identify the best attribute – eg: m15 
10) Split S1_b into S1_b1, S1_b2 


Question is : When does this splitting get over ? 
i.e.After step 7, does S1_a1, and S1_a2 further split ? When does it end ? 

Regards 

Sri 

答えて

0

これは一般的な答えですが、任意のランダムな森林コードの実装に適用可能であるべきです。ランダムフォレストにはノードサイズというパラメータがあります。ノードサイズは、ツリーのリーフ内の観測数であり、その時点でアルゴリズムはもはや分割し続けることはありません。したがって、あなたの例では、4つの観測値を持つノードの分割が2つの観測値を持つ2つのノードをもたらし、ノードサイズが2だった場合、アルゴリズムは停止します。

もちろん、物理的な意味を成す最小のノードサイズは1であるため、これより小さい値は拒否する必要があります。

上記の段落を読んだことに基づいて、小さなノードサイズ、たとえば、 1、最高のモデルにつながります。実際には、これは必ずしもそうではありません。ある時点で、分割を続けることはもはやモデルの予測力を改善しないかもしれない。したがって、最良のノードサイズは、信頼性の高いモデルを生成する最大の値です。

+0

Thanks Tim。今それは理にかなっています。ほとんどのチュートリアルでは、ツリーを構築することについて話していますが、終了するタイミングについては何も話していません。ツリー構築プロセスを描こうとしている間は、ちょっと進んでいるようです。分割サイズ(ノードサイズ)について、デフォルト値はありますか? – Sri

+0

これは、使用している実装によって異なります。 Rの 'randomForest'パッケージでは、回帰モードのデフォルトのノードサイズは5と考えています。 –

関連する問題