0
スパーククラスタ上で大きなファイルを処理すると、メモリ不足が発生します。私はヒープのサイズを広げることができることを知っている。しかし、より一般的なケースでは、それは私が考える良い方法ではありません。私はバッチで小さなファイルに大きなファイルを分割することは好奇心です。良い選択です。したがって、大きなファイルの代わりに小さなファイルをバッチで処理することができます。スパーク時に大きなファイルを処理する方法
スパーククラスタ上で大きなファイルを処理すると、メモリ不足が発生します。私はヒープのサイズを広げることができることを知っている。しかし、より一般的なケースでは、それは私が考える良い方法ではありません。私はバッチで小さなファイルに大きなファイルを分割することは好奇心です。良い選択です。したがって、大きなファイルの代わりに小さなファイルをバッチで処理することができます。スパーク時に大きなファイルを処理する方法
私はOOMの問題に遭遇しました。スパークはメモリを計算するためにメモリを使用します。中間ファイルなどはすべてメモリに保存されます。キャッシュまたは永続性が役立つと思います。ストレージレベルを設定できますMEMORY_AND_DISK_SERとして
しかし、私もOOMを持っています。別の方法の1つは、 'spark.default.parallelism'を使ってパーティションの数を増やすことです。 – chatterboy