にタスクのシリーズを実行するための時間がかかる。これは、私のサンプルコードです存続理由:とのデータがScalaの
val file = sc.textFile(fileapath).persist(StorageLevel.MEMORY_AND_DISK_2)
私は、このようなHDFSからファイルを読み込むなど一連のタスクを実行し、そのレコードをカウントし、もう一度やっていますbinningやjoinやgroupbyのようないくつかのプリプロセッサで、結果の数を見つけてファイルをhdfsに保存します。
私は、プリプロセッサー結合でこれを実行しているときに、データの持続性のために時々立ち往生することに気付きました。
このpersistを削除すると、そのpersistが実行されます。今私はデータの永続性についていくつかの疑問を持っています。なぜ、いくつかのタスクに対してのみ効果が持続するのです。
重要なデータの多くは、あなたの質問に欠けている私の疑問を把握するために