RandomForestを実行しているときに、入力データの行数と列数を使用する方法と、フォレストのサイズを計算するためのフォレスト(ツリーと試行)のオプション(バイト単位)を実行する方法がありますか?実行する前にRandomForestのサイズを計算できますか?
特定の問題は、最終的なRandomForest(探索的ではなく)を実行しているときに、できるだけ堅牢なモデルを望みます。私はそれを打つことなく私の記憶限界まで走りたい。今、私は試行錯誤していますが、もっと正確な方法を探しています。
RandomForestを実行しているときに、入力データの行数と列数を使用する方法と、フォレストのサイズを計算するためのフォレスト(ツリーと試行)のオプション(バイト単位)を実行する方法がありますか?実行する前にRandomForestのサイズを計算できますか?
特定の問題は、最終的なRandomForest(探索的ではなく)を実行しているときに、できるだけ堅牢なモデルを望みます。私はそれを打つことなく私の記憶限界まで走りたい。今、私は試行錯誤していますが、もっと正確な方法を探しています。
私はそれを打つことなく私の記憶限界まで走りたいです。
なぜそれをしたいですか?リソースを制限するのではなく、良いランダムフォレストモデルを構築するために必要なリソースを使用するだけです。私の経験では、ランダムフォレストの実行時にメモリ制限の問題に遭遇することはめったにありませんでした。これは、合理的なサイズの実際のデータセットのサブセットを訓練するためです。
randomForest
ファンクション(randomForest
パッケージから)には、フォレストの大きさに影響する2つのパラメータがあります。最初はntree
です。これは、フォレストを構築する際に使用されるツリーの数です。木が少ないほど、モデルのサイズは小さくなります。もう1つのパラメータはnodesize
で、各ツリーの各リーフノードに所在する観測数を制御します。 より小さいノードサイズ、各ツリーでより多くの分割が行われなければならないほど、そしてより大きなフォレストモデル。
これらのパラメータを実験し、合理的なサイズのトレーニングセットでトレーニングする必要があります。良いモデルのメトリックは、メモリの限界をどれくらい近づけていくのではなく、あなたが構築するモデルの強さです。
ありがとうございます、私はあなたの意見に同意します。それでも、試行錯誤の方法は私にとって理想的ではありません。私はそれが実行される前にサイズを見積もることができる方法があるかどうか不思議です。 – Jesse