30GBのCSVファイルでAprioriアルゴリズムを実行しようとしましたが、各行はその中の34個の項目(列)までバスケットです。 Rスタジオは実行直後に死んだ。大規模なデータセットでアルゴリズムを実行するために必要なRAMとCPUの設定など、システムの最小要件は何ですか?Rの大規模データセット(30GB)を分析するための最低限のシステム要件は何ですか?
答えて
この質問には、このような回答はありません。あなたがデータで何をしたいかによって大きく左右されます。あなたは1 1ですべての行を処理することができるならば、あなただけのラムのほんの少しを必要とする
-
例は、(たとえば私は、これはまた、ほとんどの些細なために保持していると信じて、それらをカウントしたい場合Aprioriの使用)
- すべてのポイント間の距離を効率的に計算したい場合は、1トンのRAMと出力を格納するもう1つのGBが必要です(これはAprioriの最も極端な使用)。
そのように私が推薦する結論
:
使用し、データのサブセットを処理する必要がどんなハードウェア。データサイズ(またはその他のパラメータ)を増やし、結果を推定して必要なものがあるかどうかを確認しながら、メモリとCPU使用率を確認します。
応答のおかげで、Dennis。大規模なデータセットを持っている場合でも、Apriori AlgorithmやRスタジオとは別の分析でクラッシュしますか?関数がより多くのループを含んでいれば(例えばfor - など)、大きなデータセットを渡している場合、R studioがクラッシュする可能性があります。 –
@Praffulsingh一般的に、大きなデータセットの分析を行う場合は、断片的に行う方法を見つけるか、Rがクラッシュするのを防ぐために大量のRAMが必要です。 (テストなしでどれくらい言いにくいか)。 –
- 1. Visual Studio 2012 - 大規模なC#ソリューション - 低速ビルドの分析?
- 2. 大規模なデータセット用の分散レプリケートバイナリストレージ
- 3. 大規模データの探索と分析のためのアーキテクチャ
- 4. 大規模なデータセットのSQL最適化
- 5. 大規模データセットのカーネルメソッド
- 6. 大規模データセットのSQLデータベースクエリパフォーマンスチャート?
- 7. 大規模な分析レポートを作成するためのHadoop/Spark
- 8. Python:Chi大規模なデータセットのカテゴリ値を二等分した
- 9. サイズで大規模なデータセット
- 10. 大規模なデータセットのRのデータフレームのサブセットの順位付け
- 11. トーチモデルのレイテンシの小さい大規模なデータセットを読み取る最良の方法は何ですか?
- 12. 大規模なデータセットを持つ半径内のポイント数 - R
- 13. 大規模なデータセットでoracle sqlのパフォーマンス
- 14. 頻繁に更新される大規模なデータセットを保存する最良のデータベースソリューションは何ですか?
- 15. シンプルなウェブサイトを運営するための最低限のシステム/ブラウザのバージョンは?
- 16. 大規模なデータセットで一般化された最小二乗
- 17. 大規模なdata.tableのためのRのループのためにこれを最適化する方法
- 18. Keras:複数の大規模データセットのバッチトレーニング
- 19. 大規模なデータセットを2つの属性でフィルタリングし、サブセットに分割する方法は? R/Grep
- 20. Yesodのシステム要件は何ですか?
- 21. ADTのシステム要件は何ですか?
- 22. 大規模システムのプログラミングテンプレートの使用
- 23. 大規模開発で最も重要なインフラストラクチャコンポーネントは何ですか?
- 24. 大規模なデータセットでRレベルが正しくない
- 25. 大規模なデータセット(角2)の* ngForループと* ngIfの最適化
- 26. 大規模なデータセット用の軽量ベイズフィルタ
- 27. 大規模なJSONデータセットへのアドホッククエリ
- 28. 大規模なデータセットのCamel Sqlコンシューマーパフォーマンス
- 29. 大規模なデータセット用のデータベースエンジン
- 30. AWSラムダ - AWS APIと話すための最低限のセキュリティグループは何ですか?
Rは完全にメモリ内で実行されるため、30GBのデータセットで作業する場合は、30KB以上が必要です。実際には、使用しているパッケージがこのデータで数学を行うので、おそらくこれよりも_more_が必要になります。なぜあなたはそのような大きなデータセットで作業する必要がありますか? –
こんにちはTim、私の現在のシステム構成は48ギガバイトであり、Aprioriアルゴリズムのi7プロセッサはまだメモリエラーが少ないので得られません。私が言ったように、トランザクションデータを持つCSVファイルで市場バスケット分析を行う必要があります。 –
@Praffulsingh現在のマシンで処理できるデータの割合を試してください。その後、使用可能なメモリを半分に制限し、再度試してください。その後、1/4。これらの3つの測定ポイントは、あなたがあなたが完全なデータに必要な量を概算することを可能にするはずです。 (おそらく、あなたの入力パラメータを考慮してAprioriの複雑さを盛り込んだ補足してください) –