私は2つの結合を行う基本的なスパークジョブを持っています。結合される3つのデータフレームはいくぶん大きく、それぞれに約20億レコードあります。私は必要に応じてノードを自動的に拡大するスパークインフラを持っています。これは非常に単純なスパークSQLクエリのように思えますが、結果はディスクに書き込まれます。しかし、私がスパークUIから見ると、仕事は常に99%で立ち往生します。私が試してみました、物事のスパークジョブが99%でスタックし続けていない
バンチは以下のとおりです。
- は
executors
とexecutor memory
の数を増やします。 repartition
を使用してファイルを書き込みます。- 代わり
spark SQL join
など
のネイティブスパークjoin
を使用ししかし、これらの事のどれも働いていません。誰かがこの問題を解決する経験を分かち合うことができれば幸いです。前もって感謝します。