2
SparkのRDDの有効範囲について混乱します。 this threadSparkの `persist`または` cache`の範囲
RDDがキャッシュされているかどうかかによる
はRDDオブジェクトの変更可能な状態の一部です。 rdd.cacheを呼び出すと、それ以降はキャッシュにマークされます。どのスコープからアクセスするかは関係ありません。
だから、
、私は例えば、内部に作成された新しいRDDと機能を定義した場合(Pythonコード)
# there is an rdd called "otherRdd" outside the function
def myFun(args):
...
newRdd = otherRdd.map(some_function)
newRdd.persist()
...
グローバル名前空間のでしょうnewRdd
生活?またはそれはmyFun
の環境内でのみ表示されますか?
それはmyFun
の環境内でのみ表示されている場合は、myFun
終了実行後、自動的にunpersist
newRdd
スパークのだろうか?