0
groupByKey()
の後、私は自分のRDDを手に入れました。(0, [a list of name])
ユースケース:s3のファイルに名前のリストを書きます。このRDDは一行だけですので、私は直接foreach()
spark foreach(keyValue)、値がメモリの爆発を引き起こすかどうか?
コードを使用している:私の質問は機能write_to_s3()
、lines = keyValue[1]
である
def write_to_s3(keyValue):
lines = keyValue[1]
tmp_file = ...
with open(tmp_file, w+) as f:
for line in lines:
f.write(line + '\n')
# upload tmp_file to s3
# remove tmp_file
myRDD.foreach(write_to_s3)
、それはライン(リスト)ため、メモリブローアップさせることが可能です大きすぎますか?
あなたは私にそれがラインからメモリブローアップ(リスト)を引き起こすことはありません理由を教えてもらえ大きすぎますか? – caden