2017-07-18 12 views
1

を呼び出します。スパークMLのdecisiontree分類器は、私がMLライブラリから分類器を使用して、今、次のコードを実行しているランダムフォレスト法

val decisionTree = new DecisionTreeClassifier().setLabelCol("label").setFeaturesCol("features").setMaxDepth(7).setImpurity("gini") 
val model = decisionTree.fit(df3) 
val prediction = model.transform(df3) 

そして、私はスパークの歴史を見たときに、ここで私が見たものです。 enter image description here

私のシングルディシジョンツリーでrandomForestメソッドを使用しているのはなぜですか?また、なぜいくつかの作業は他の作業と比べて本当に長くなっていますか? MLのドキュメントはこれについて多くの情報を与えるものではありません

答えて

2

ランダムフォレストは、決定木のアンサンブルです...(私はそれをスピードアップするために行うことができるものがあれば、私が知りたいのですが)

これは意思決定ツリーと同じです。 最大深度を7から1にリサイズすると時間がかかりませんが、アンダーフィットになります。また、それはラムのサイズに基づいています。

+0

これは意味があります。あなたはラムサイズの部分を詳しく教えてもらえますか?私はspark.driver.memoryのようないくつかのパラメータを変更して、自分のプログラムが動作するようにしなければなりませんでした。 – Tiffany

+2

私はあなたの実行メモリまたはヒープサイズを超えるべきだと思います。実際にあなたのモデルと問題解決の方法に依存します –

+1

ありがとう、私もsetMaxMemoryInMBオプションを発見しました – Tiffany

関連する問題