Apache Sparkここで私は何をしているのですか？

このラインでは、どのRDDが維持されていますか？ dropResultsNまたはdataSetN？Apache Sparkここで私は何をしているのですか？

dropResultsN = dataSetN.map(s -> standin.call(s)).persist(StorageLevel.MEMORY_ONLY());

質問は、私はまだどのように最高の時間RDD創出へのコアの質問に良い答えを探していますApache Spark timing forEach operation on JavaRDDからの側の問題、として生じます。

2016-07-11 JimLohse

dropResultsNは、永続化されたRDD（dataSetNをstandin.call()にマッピングすることによって生成されたRDD）です。

2016-07-11 23:42:23 jaco0646

。あなたの答えに何かへのリンクが含まれていて、それを引用してくれればいいです。ソースコードを掘り下げることなく、次に行うことにします。 – JimLohse

NVMの前のコメント私はLearning Sparkの良い例を見つけ、別の答えを投稿しました – JimLohse

私はオライリーによるスパークを学ぶにはこの良い例が見つかりました：

それは例3-40です。スパーク学習にNOTE

import org.apache.spark.storage.StorageLevel 

val result = input.map(x => x*x) 
result.persist(StorageLevel.[<your choice>][1])

（Javaは同じであると仮定）Scalaで（）を持続：我々は（存続と呼ばれることに注意してください）RDD に最初のアクションの前に。 persist（）呼び出し自体は、の評価を強制しません。

私は、この例ではpersistが次の行にあることに注意してください。これは私の質問よりもはるかに明確です。私は考えを持っているだろうかもだ、と私はスパークを呼び出しを奪うとき（めちゃくちゃ）このアプリケーションで実行するタスクのDAGに含まれるべきであるにも関わらず、RDDを再計算し続ける

2016-07-12 12:53:20 JimLohse

答えて