2016-08-01 2 views
0

確率的勾配降下を介してパラメータを学習したムービー定格のベースライン予測モデル(NetFlix賞のさまざまなベースラインモデルに類似)を実装しようとしています。しかし、両方の説明変数がカテゴリ(ユーザーと映画)なので、デザインマトリックスは本当に大きく、自分のRAMに収まらない。確率的勾配降下設計行列が大きすぎるためR

大量のデータ用に設計されているので、sgdパッケージがこの問題を自動的に検出すると思っていましたが、そうではありません。

これを回避する方法を知っている人はいますか?おそらく、疎な行列として設計行列を構築する方法です。

乾杯、

答えて

0

あなたは、より効率的な方法で行列を説明トリプレットを作成するためにMatrix::sparseMatrixを使用しようとすることができます。 Amazon EC2で問題をエクスポートし、RAMを増やしたりインスタンスを使用したり、クラスタを構成してマップされた縮小ジョブを作成したりすることもできます。 xgboostパッケージhttps://github.com/dmlc/xgboostとそのドキュメントをチェックして、メモリの問題に対処する方法を理解してください。

これはまた、より実用的なチュートリアルです:https://cran.r-project.org/web/packages/xgboost/vignettes/discoverYourData.html

+0

どうもありがとう、xgboostチュートリアルは本当に便利です! –

+0

よろしくお願いします! –

関連する問題