2017-03-27 7 views
1

私はツリーをボトムアップ順に反復する必要があります。スパーク:ツリーアルゴリズムでのRDDパーシスタンスの使用

isEmpty 
    | 
    union 
/ \ 
t_m t_n 
|  | 
... ... 
|  | 
t_n+1 t_1 
T_I-1の使用で形質転換してしまったT_I RDD

: は例えば、私は次のようにツリーを持っています。したがって、結合関数は両方の子RDDを必要とします。ボトムアップアルゴリズムは、(t_1、...、t_n、t_n + 1、...、t_m、共用体)のリストを に反復します。

私の質問は、になりますか? RDD t_n?

t_nの計算後、さらに多くの計算が行われる(t_n + 1からt_m)ためです。 SparkがLRU方式でキャッシュするなら、私はt_nを持続すべきだと思います。

ありがとうございます!

答えて

0

ユニオンはアクション操作ではありません。トリガーアクション操作後にrddをキャッシュ/永続化する必要があります。

+0

私は今編集しました。 –

+0

rddに多くのデータが含まれており、計算に時間がかかる場合は、それを保持する必要があります。キャッシュ/持続もリソースを占有しますので、注意して使用する必要があります。 – Wang

関連する問題