1
org.apache.spark.sql.Dataset#persist()
が呼び出されたときに実際には、キャッシュはDataset
をキャッシュしますか?または、Dataset
で何らかの端末操作(count
など)が呼び出されると、遅延してキャッシュされます。データセット#persist()は端末操作ですか?
org.apache.spark.sql.Dataset#persist()
が呼び出されたときに実際には、キャッシュはDataset
をキャッシュしますか?または、Dataset
で何らかの端末操作(count
など)が呼び出されると、遅延してキャッシュされます。データセット#persist()は端末操作ですか?
Spark Dataset.persist
でのすべてのキャッシュ操作は遅延しており、キャッシングの対象として指定されているオブジェクトのみが評価されます。
RDDとの主な違いは、評価が推論するのがずっと難しいことです。開発者リストに関する関連ディスカッションを参照してください:Will .count() always trigger an evaluation of each row?