縮約データセットで複雑なクエリを有効にするためにspark-jobserverを設定しました。Spark JobServer、リリースのメモリ設定
ジョブサーバは、2つの操作を実行:メインリモートデータベースと
- Syncを、それが、サーバーのテーブルのいくつかのダンプを行い削減し、データを集約し、寄木細工のファイルとして結果を保存し、それをキャッシュメモリ内のSQLテーブルとして。この操作は毎日行われます。
- クエリは、同期操作が完了すると、集約されたデータセットでSQL複合クエリを実行し、結果をCSVファイルとしてエクスポートできます。すべてのユーザーは一度に1つのクエリしか実行できず、完了を待ちます。
最大のテーブル(縮小の前後に、いくつかの結合も含まれます)には、少なくとも30個のフィールドを持つほぼ30Mの行があります。
実際、私は仕事用サーバー専用の32GBのRAMを搭載したdevマシンに取り組んでいます。すべてがスムーズに動作します。問題は、本番環境では、PredictionIOサーバーと同じ量のRAMを共有していることです。
メモリリークやスパークのクラッシュを避けるためにメモリ構成を決定する方法をお伺いしています。
私はこれが初めてで、あらゆる参考文献や提案が受け入れられます。
を使用すると、32グラムのRAMを搭載したサーバーを持っている場合など、 を取るあなた