私は、MATLABを使用して巨大な(つまり、メモリに格納できない)データセットからバイナリ分類決定ツリーを構築しようとしています。基本的に、私がやっていることは次のとおりです。 巨大なデータセットのデシジョンツリーを学習する
- が
- データにn個意思決定機能を試してみてください、すべてのデータを収集し
- 分割データ内のクラスを分離するためにbest decision functionを選びます分割
に2
今私は、ファイルにデータを格納し、メモリに保持してIDを各行に割り当てることを検討しています。分割する決定は、すべてのファイルを順番に読み取ることによって行われ、将来の分割はID番号。
もっと良い方法でこれを行う方法を知っている人はいますか?
編集:行数mは、5E8及びkの周りで約500
ちょうど明確にする:kは巨大ではない、行の数だけですか? – Reunanen
はい、行数、m >> k – Jacob