私はいくつかのデータを収集し、永続化し、永続化されたRDDをさまざまな変換に複数回使用するかなり典型的なRDDシナリオを持っています。持続性は物事を一桁上げさせるので、永続化は確実です。spark MEMORY_AND_DISKがMEMORY_ONLYより遅いのはなぜですか?
しかし、私は、さまざまな持続方法の相対速度に驚いています。 MEMORY_AND_DISK
を使用し続けると、持続的なRDDを使用するたびに、MEMORY_ONLY
を使用する場合より約10%長くなります。何故ですか?私は、データがメモリに収まる場合には同じ速度を期待していましたが、一部のパーティションがメモリに収まらない場合には、より速くなると予想していました(MEMORY_AND_DISK
)。なぜ私のタイミングは一貫して真実ではないのですか?
キャッシュが破棄された場合、データを再クエリする必要があります。これらのクエリは遅く、ディスクへの/からのキャッシュの書き込み/読み込みよりも遅くなります。 – Darryl