複数のプログラムから読み取られているデータセットがあります。このデータセットを毎日何度もメモリに読み込むのではなく、データセットを効果的にキャッシュする方法があるので、どのプログラムでも呼び出すことができます。スパーク:複数のプログラムで使用するためのRDD/DFのキャッシュ
3
A
答えて
1
RDDSとデータセットは
ただし、データグリッドに興味がある可能性があり(少なくとも、メモリを共有するための公式APIが存在しない)アプリケーション間で共有することはできません。 Apache Igniteを見てください。つまり、データをSparkに読み込み、前処理してグリッドに保存することができます。次に、他のアプリケーションでは、Igniteキャッシュからデータを読み取るだけです。
IgniteRDDという名前の特別なタイプのRDDがあります。IgniteRDDは他のデータソースと同様にIgniteキャッシュを使用できます。もちろん、他のRDDのように、このようなものになるだろう
をデータセットに変換することができます:
val rdd = igniteContext.fromCache("igniteCache")
val dataFrame = rdd.toDF
IgniteContextとIgniteRDDについての詳しい情報は、あなたが見つけることができるhere
関連する問題
- 1. スパーク:別のジョブで使用するキャッシュRDD
- 2. spark-cassandra-connectorを使用して複数のcassandraテーブルをスキャンするためにスパークを使用する
- 3. SpringデータストアRedis - 複数のキャッシュを使用
- 4. 複数のキャッシュをレールにどのように使用するのですか? (本物のため)
- 5. 複数の使用のためのgetElementById
- 6. キャッシュされたウェブページのために複数のeコマーストランザクション
- 7. スパーク:プログラムでクラスタコアの数を取得
- 8. スパーク:複数のデータフレームで同じOneHotEncoderを使用
- 9. ジョブが使用するエグゼキュータのスパーク数
- 10. solrで複数のテーブルを使用するためのデルタインポート
- 11. スパークRDDを複数の繰り返しにわたって使用する
- 12. プログラムでページを開くためにGoogle Webキャッシュを使用できますか?
- 13. オフラインで使用するためのアクセス制御とキャッシュ・マニフェスト
- 14. 複数のプログラムを起動するためのバッチ
- 15. スパークSQLフィルタ複数のフィールド
- 16. スパーク - 複数の要素
- 17. 複数のコマンドを実行するためのforkの使用
- 18. 複数のジョブをスパークするエラー
- 19. スパークで別のテーブルを更新するために1つのテーブルを使用
- 20. アプリケーションで埋め込みスパークを使用する際の短所
- 21. プログラム論理を使用するDjango InlineFormsまたは複数の使用インライン?
- 22. 複数のプロセスのセッション用外部キャッシュ
- 23. 複数のforループを使用するための苦労R
- 24. 複数の.gitignoreファイルを使用するためのベストプラクティス
- 25. 複数のコンシューマに同じチェックポイントの場所を使用する - スパーク直接ストリーミング
- 26. 複数のASIDownloadキャッシュ
- 27. プログラムによるスパーク送信機能の使用方法
- 28. 複数の使用のためのphp関数
- 29. ドライバで使用されるスパーク数
- 30. キャッシュのためにLinuxユーザ空間メモリを使用する