スパーク：ツリーアルゴリズムでのRDDパーシスタンスの使用

isEmpty 
    | 
    union 
/ \ 
t_m t_n 
|  | 
... ... 
|  | 
t_n+1 t_1

T_I-1の使用で形質転換してしまったT_I RDD

：は例えば、私は次のようにツリーを持っています。したがって、結合関数は両方の子RDDを必要とします。ボトムアップアルゴリズムは、（t_1、...、t_n、t_n + 1、...、t_m、共用体）のリストをに反復します。

私の質問は、になりますか？ RDD t_n？

t_nの計算後、さらに多くの計算が行われる（t_n + 1からt_m）ためです。 SparkがLRU方式でキャッシュするなら、私はt_nを持続すべきだと思います。

ありがとうございます！

2017-03-27 Vitali D.

ユニオンはアクション操作ではありません。トリガーアクション操作後にrddをキャッシュ/永続化する必要があります。

2017-03-27 13:22:41 Wang

私は今編集しました。 –

rddに多くのデータが含まれており、計算に時間がかかる場合は、それを保持する必要があります。キャッシュ/持続もリソースを占有しますので、注意して使用する必要があります。 – Wang

答えて