2016-06-14 11 views
1

私は、長さ100万のランダムなベクトルを生成するRプログラムを書いています。私は100万回それをシミュレートする必要があります。百万回のシミュレーションのうち、サンプルとして50K観測ベクトル(ランダムに選択)を使用します。したがって、サンプルサイズは50M cross 1Mです。それをRで扱う方法はありますか?巨大なシミュレーションを扱うR

問題はほとんどなく、いくつか問題があります。

最初のRは、私のマシンにこのような巨大な行列を保存することはできません。それはRAMのメモリを超えています。私はbigmemory、ffbaseなどのハードディスクスペースを使用するパッケージを調べました。しかし、そのような巨大なデータはTBでサイズを持つことができます。私のマシンには200GBのハードディスクがあります。

保存が可能であっても、実行時間に問題があります。コードは100時間以上の実行時間がかかる場合があります。

誰でも方法を提案できますか?ありがとう

答えて

2

この回答は、実際にはコメントと回答の間にあるものです。あなたのジレンマの簡単な方法は、そのような膨大なデータセットでは動作しないことです。あなたは、そのデータの合理的なサイズの代表サブセット(おそらく数百MB以上を必要とする)をとり、このようにモデルを訓練することができます。あなたは観測数百万の実際のデータセットの生産のモデルを使用する必要がある場合

、その後、問題はもはやRに関連しないであろう