2016-06-20 7 views
0

30GBのCSVファイルでAprioriアルゴリズムを実行しようとしましたが、各行はその中の34個の項目(列)までバスケットです。 Rスタジオは実行直後に死んだ。大規模なデータセットでアルゴリズムを実行するために必要なRAMとCPUの設定など、システムの最小要件は何ですか?Rの大規模データセット(30GB)を分析するための最低限のシステム要件は何ですか?

+0

Rは完全にメモリ内で実行されるため、30GBのデータセットで作業する場合は、30KB以上が必要です。実際には、使用しているパッケージがこのデータで数学を行うので、おそらくこれよりも_more_が必要になります。なぜあなたはそのような大きなデータセットで作業する必要がありますか? –

+0

こんにちはTim、私の現在のシステム構成は48ギガバイトであり、Aprioriアルゴリズムのi7プロセッサはまだメモリエラーが少ないので得られません。私が言ったように、トランザクションデータを持つCSVファイルで市場バスケット分析を行う必要があります。 –

+0

@Praffulsingh現在のマシンで処理できるデータの割合を試してください。その後、使用可能なメモリを半分に制限し、再度試してください。その後、1/4。これらの3つの測定ポイントは、あなたがあなたが完全なデータに必要な量を概算することを可能にするはずです。 (おそらく、あなたの入力パラメータを考慮してAprioriの複雑さを盛り込んだ補足してください) –

答えて

0

この質問には、このような回答はありません。あなたがデータで何をしたいかによって大きく左右されます。あなたは1 1ですべての行を処理することができるならば、あなただけのラムのほんの少しを必要とする

  1. 例は、(たとえば私は、これはまた、ほとんどの些細なために保持していると信じて、それらをカウントしたい場合Aprioriの使用)

  2. すべてのポイント間の距離を効率的に計算したい場合は、1トンのRAMと出力を格納するもう1つのGBが必要です(これはAprioriの最も極端な使用)。

そのように私が推薦する結論

使用し、データのサブセットを処理する必要がどんなハードウェア。データサイズ(またはその他のパラメータ)を増やし、結果を推定して必要なものがあるかどうかを確認しながら、メモリとCPU使用率を確認します。

+0

応答のおかげで、Dennis。大規模なデータセットを持っている場合でも、Apriori AlgorithmやRスタジオとは別の分析でクラッシュしますか?関数がより多くのループを含んでいれば(例えばfor - など)、大きなデータセットを渡している場合、R studioがクラッシュする可能性があります。 –

+0

@Praffulsingh一般的に、大きなデータセットの分析を行う場合は、断片的に行う方法を見つけるか、Rがクラッシュするのを防ぐために大量のRAMが必要です。 (テストなしでどれくらい言いにくいか)。 –

関連する問題