4
私は一連のジョブと中間を実行していますrddはすべてのジョブで使用されています。だから私は中間のrddsをキャッシュしていますが、いくつかの反復の後では減速します。それから、私はrddチェックを要求していません。スパークUIでは、チェックポインティングが正しく行われていることを確認できます。しかし、それはまたローカルシステムにそれぞれのrddを書くので時間がかかる。実際のデータを保存せずに不要な系統を破る効果的な方法は何ですか?rddのデータですか?すべてのデータを保存せずにRDDをチェックポイントする方法は?
私は、データを最初にキャッシュし、その後、私が将来再生しようとしているデータがRAMにあり、同時にRDDの履歴が消去されるように、系統を中断したいと思います。また、データはRAMに保存されているため、ローカルシステムに保存する必要はありません。 –