2

私はadaboostと決定木を比較したいと思っていました。原理の証明として、私はadaboost1に推定木の分類子をデフォルトとして設定し、簡単な決定木と同じ結果を期待しています。なぜ簡単な意思決定ツリーよりも1つの見積もりが速いのですか?

実際、私のテストラベルの予測精度は同じです。しかし、試験時間が少し高い間に、フィッティング時間はadaboostの方がずっと低くなります。 AdaboostDecisionTreeClassifierと同じデフォルト設定を使用しているようですが、そうでない場合、精度はまったく同じになりません。

誰でもこれを説明できますか?

コード

from sklearn.ensemble import AdaBoostClassifier 
from sklearn.tree import DecisionTreeClassifier 
from sklearn.metrics import accuracy_score 

print("creating classifier") 
clf = AdaBoostClassifier(n_estimators = 1) 
clf2 = DecisionTreeClassifier() 

print("starting to fit") 

time0 = time() 
clf.fit(features_train,labels_train) #fit adaboost 
fitting_time = time() - time0 
print("time for fitting adaboost was", fitting_time) 

time0 = time() 
clf2.fit(features_train,labels_train) #fit dtree 
fitting_time = time() - time0 
print("time for fitting dtree was", fitting_time) 

time1 = time() 
pred = clf.predict(features_test) #test adaboost 
test_time = time() - time1 
print("time for testing adaboost was", test_time) 

time1 = time() 
pred = clf2.predict(features_test) #test dtree 
test_time = time() - time1 
print("time for testing dtree was", test_time) 

accuracy_ada = accuracy_score(pred, labels_test) #acc ada 
print("accuracy for adaboost is", accuracy_ada) 

accuracy_dt = accuracy_score(pred, labels_test) #acc dtree 
print("accuracy for dtree is", accuracy_dt) 

出力

('time for fitting adaboost was', 3.8290421962738037) 
('time for fitting dtree was', 85.19442415237427) 
('time for testing adaboost was', 0.1834099292755127) 
('time for testing dtree was', 0.056527137756347656) 
('accuracy for adaboost is', 0.99089874857792948) 
('accuracy for dtree is', 0.99089874857792948) 
+1

'features_train'の次元は何ですか? 100回の3次元サンプルを使って実験を繰り返すと、Adaboostよりも約10倍速いです。 –

+1

また、プロファイラを使用してみてください。 IPythonの魔法の '%prun'は良い選択です。 –

+0

Features_trainには、3785サンプルの16000の機能があります。私はこれらの2つの概念の相違点に興味があります。彼らはどのようにアルゴリズムを採用していますか?私はAdaBoostClassifierが1 Estimateatorを持っていると、DecisionTreeClassifierが行うことを正確に行うことができます。 – galliwuzz

答えて

2

私はIPythonであなたの実験を繰り返してみましたが、私はこのような大きな違いが表示されない:

from sklearn.ensemble import AdaBoostClassifier 
from sklearn.tree import DecisionTreeClassifier 
import numpy as np 
x = np.random.randn(3785,16000) 
y = (x[:,0]>0.).astype(np.float)  
clf = AdaBoostClassifier(n_estimators = 1) 
clf2 = DecisionTreeClassifier() 
%timeit clf.fit(x,y) 
1 loop, best of 3: 5.56 s per loop 
%timeit clf2.fit(x,y) 
1 loop, best of 3: 5.51 s per loop 

プロの使用をおすすめする最初に実験を繰り返す。

関連する問題