0

現在、最高のメモリn1-highmem-32(32個のvCPU、208 GBのメモリ)を持つ仮想マシンを実行しています。データセットサイズのためにDatalabカーネルがクラッシュする。ロードバランシングはオプションですか?

私のデータセットは約90ギグですが、今後成長する可能性があります。

データは、多くの圧縮CSVファイルに格納されています。次元数の削減とクラスタリングを行うために、データを疎な行列にロードしています。

+0

詳細を追加できますか?どのようなクラッシュがありますか?スタックトレースはありますか?ステップは素晴らしいでしょう。 – yelsayed

答えて

1

Datalabカーネルは、1台のマシン上で動作します。すでに208GBのRAMマシンで実行しているので、データを分析するために分散システムに切り替える必要があるかもしれません。

データで実行している操作をSQLで表すことができれば、Datalabには多くのサポートがあるBigQueryにデータをロードすることをおすすめします。それ以外の場合は、処理パイプラインをDataflow(Python SDKを使用)を使用するように変換することができます。操作の複雑さによっては、これらのいずれかが困難な場合があります。

関連する問題