私は非常に大きなDataframeを持つスパークアプリケーションを持っています。私は現在tempTableとしてデータフレームを登録しているので、いくつかのクエリを実行することができます。Spark DataFrame Cache Large TempTable
私はRDDを使用しているときに、persist(StorageLevel.MEMORY_AND_DISK())を使用して、tempTableに相当するものを使用します。
以下の2つの可能性があります。cacheTableがメモリにキャッシュしようとしていて、テーブルが大きすぎてメモリに収まらないため、オプション2が機能しないと思われます。
データをリロードしなくても、いくつかのクエリを実行できるようにするにはどうすればよいでしょうか。
おかげで、 ネイサン