2016-09-12 5 views
1

メモリ(8GB)に収まらない10GBトレーニングデータセットの上に予測モデリングを行う必要があります。大きなデータセットを複数サンプリングすることを考えています。それぞれのサブセットで分割して、モデルを作成するためのトレーニングと検証を生成します。問題を解決する良い方法はありますか?ありがとう!大きなデータセットでサンプリングモデリングを行う方法

答えて

1

データをチャンクにロードし、チャンクが使い果たされるまでデータのランダムなバッチを確率的なグラディエント降下を使用して最適化します。次のチャンクを持ち込み、グラデーションの下降を続けます。これはSGDのほぼ完全な使用例です。

データセットにオーダーがある場合は、チャンクの順序をランダム化してグラデーションの降下を助けることを検討してください。実際には、これは違いをもたらさないかもしれません(ただし、もちろん可能です)。それがなぜ重要なのか興味があれば、勾配降下計算を考えてみてください。

関連する問題