s3には30GBのORCファイル(24パーツ* 1.3G)があります。私はこのorcを読んでいくつかの操作を行うためにsparkを使用しています。しかし、私が観察したログからは、操作を行う前でさえ、スパークはs3 (全ファイルを読むのに12分かかります)から24部すべてを開いて読んでいます。。しかし、ここで私の懸念は、このすべての読み取り操作は、ドライバとエグゼキュータのすべてがアイドルであるが現時点ではであることです。エグゼクティブではないドライバのspark reading orcファイル
誰かがなぜ私のことを説明できますか?私もすべてのエグゼクティブを読書に利用できる方法はありますか?
同じことが寄木細工にも適用されますか?
ありがとうございます。
問題がいくつか発生する可能性があります。コードを投稿してください。 –