0
私はSparkを使って自分のデータに対していくつかの操作を行っています。 データ操作に役立つ補助辞書を使用する必要があります。Sparkのバッチ処理ごとに静的ファイルがロードされ、アンロードされていますか?
streamData = sc.textFile("path/to/stream")
dict = sc.textFile("path/to/static/file")
//some logic like:
//if(streamData["field"] exists in dict)
// do something
私の質問です:dictのは、すべての時間がメモリ内にあるか、それがロードされ、スパークがバッチに取り組んでいるたびにアンロードしておく必要があるのでしょうか?それは、実行時にメモリを必要とする他のオブジェクト(複数可)のために追い出される必要がある場合を除き
おかげ