、1つまたは2つの属性が必要な場合、我々は不必要に完全なオブジェクトをシリアル化しないように注意する必要がスパークScalaのインタフェースを使用しながら:(http://erikerlandson.github.io/blog/2015/03/31/hygienic-closures-for-scala-function-serialization/)PySparkはマップラムダの '自己'参照オブジェクトをシリアライズしていますか?私の知る限り理解し
をPySparkを使用している場合、このしくみを教えてください。
class C0(object):
def func0(arg):
...
def func1(rdd):
result = rdd.map(lambda x: self.func0(x))
この結果、完全なC0インスタンスが削除されますか?もしそうなら、それを避ける正しい方法は何ですか?
ありがとうございました。