私はIoTアプリケーションからのJSONデータを持つKafkaブローカーを持っています。いくつかの処理を行うために、Spark Streamingアプリケーションからこのサーバに接続します。Spark Streamingアプリケーションでキャッシュデータにアクセスする方法は?
cache()
とpersist()
オペレータを使用して達成できると思われる私のjsonデータのいくつかの特定のフィールドをメモリ(RAM)に保存したいとします。
次回は、Spark Streamingアプリケーションで新しいJSONデータを受け取ると、検索できる共通のフィールドがあるかどうかをメモリ(RAM)にチェックインします。そしてもしそうなら、私は単純な計算を行い、私は最終的に私がメモリ(RAM)に保存したフィールドの値を更新します。
このように、私が前に説明したものが可能かどうかを知りたいと思います。はいの場合は、cache()またはpersist()を使用する必要がありますか?そして、私は自分のフィールドをメモリから取り出すことができますか?