30GBのCSVファイルでAprioriアルゴリズムを実行しようとしましたが、各行はその中の34個の項目（列）までバスケットです。 Rスタジオは実行直後に死んだ。大規模なデータセットでアルゴリズムを実行するために必要なRAMとCPUの設定など、システムの最小要件は何ですか？Rの大規模データセット（30GB）を分析するための最低限のシステム要件は何ですか？

出典

2016-06-20 Prafful singh

Rは完全にメモリ内で実行されるため、30GBのデータセットで作業する場合は、30KB以上が必要です。実際には、使用しているパッケージがこのデータで数学を行うので、おそらくこれよりも_more_が必要になります。なぜあなたはそのような大きなデータセットで作業する必要がありますか？ –

こんにちはTim、私の現在のシステム構成は48ギガバイトであり、Aprioriアルゴリズムのi7プロセッサはまだメモリエラーが少ないので得られません。私が言ったように、トランザクションデータを持つCSVファイルで市場バスケット分析を行う必要があります。 –

@Praffulsingh現在のマシンで処理できるデータの割合を試してください。その後、使用可能なメモリを半分に制限し、再度試してください。その後、1/4。これらの3つの測定ポイントは、あなたがあなたが完全なデータに必要な量を概算することを可能にするはずです。（おそらく、あなたの入力パラメータを考慮してAprioriの複雑さを盛り込んだ補足してください） –

この質問には、このような回答はありません。あなたがデータで何をしたいかによって大きく左右されます。あなたは1 1ですべての行を処理することができるならば、あなただけのラムのほんの少しを必要とする

例は、（たとえば私は、これはまた、ほとんどの些細なために保持していると信じて、それらをカウントしたい場合Aprioriの使用）
すべてのポイント間の距離を効率的に計算したい場合は、1トンのRAMと出力を格納するもう1つのGBが必要です（これはAprioriの最も極端な使用）。

そのように私が推薦する結論

：

使用し、データのサブセットを処理する必要がどんなハードウェア。データサイズ（またはその他のパラメータ）を増やし、結果を推定して必要なものがあるかどうかを確認しながら、メモリとCPU使用率を確認します。

出典

2016-06-20 09:27:37

応答のおかげで、Dennis。大規模なデータセットを持っている場合でも、Apriori AlgorithmやRスタジオとは別の分析でクラッシュしますか？関数がより多くのループを含んでいれば（例えばfor - など）、大きなデータセットを渡している場合、R studioがクラッシュする可能性があります。 –

@Praffulsingh一般的に、大きなデータセットの分析を行う場合は、断片的に行う方法を見つけるか、Rがクラッシュするのを防ぐために大量のRAMが必要です。（テストなしでどれくらい言いにくいか）。 –

Rの大規模データセット（30GB）を分析するための最低限のシステム要件は何ですか？

答えて

例は、（たとえば私は、これはまた、ほとんどの些細なために保持していると信じて、それらをカウントしたい場合Aprioriの使用）

そのように私が推薦する結論

関連する問題