0
私はSparkとSpark-Cassandraコネクタを使ってCassandraから自分のデータを集めています。私はそれを単一の共有SparkContextとREST APIでWebアプリケーションを持っています。 CassandraテーブルをSparkメモリに長期保存するには?
に従ってRDDの調製のためにそれを準備
- 読むCassandraの表:処理は、次のフローを有しています呼び出しごとに異なります(apiリクエストパラメータに依存)。 APIリクエストはパラレルモード(リクエストごとのスレッド)で実行されます。テーブル内のデータはあまり動的ではなく、スパーク作業者にはテーブル全体を格納するのに十分なメモリがあるので、2番目のステップの後にRDDを永続させ、すべての要求にフィルタをかけるだけですでにRDDを保持します。また、このRDDを定期的に更新したいと思います。それを達成する最良の方法は何ですか?
私は私はあなたが欲しいものを正しく理解していないです。 RDDは異なるコンテキスト間で共有する必要がありますか?そうしないと、簡単な['persist'](http://spark.apache.org/docs/latest/programming-guide.html#rdd-persistence)がそのトリックを行うべきです。 –
@Hawknightいいえ、私はただ一つの文脈しか持っていません。永続化されたテーブルをscalaオブジェクトの中に格納することはできますか? – Cortwave
あなたのテーブルがRDDとして変換されている場合は、RDDを永続させ、後続の呼び出しで永続RDDへの参照を保持することができます(技術的には、アクションが呼び出された時点でのみ保持されます)。 –