スパークRDDのサポート

スパークでは、データセットをRDDとしてロードしましたが、ストリーミングデータをあまり頻繁に追加しないようにしました。私はRDDがロックを簡単にするため不変であることを知っています。静的データとストリーミングデータを別々に処理する他の方法はありますか？スパークRDDのサポート

同様の質問は前に依頼されています Spark : How to append to cached rdd?

2016-12-24 Vortex

スパークストリーミングでは、反復処理できるRDDの集合を表すデータ構造を取得します。カフカキュー、ファイルシステムなどを聴いて、次のRDDに含める新しいデータを見つけることができます。

これらの「追加」を行うことはめったにない場合は、同じスキーマを持つ2つのRDDを結合して、新しい結合RDDを取得することができます。

2016-12-24 05:04:22 Brian

ありがとうBrian。スパークストリーミングは私が本当に望むものに近いようです。分散型の可変表。私は静的なデータが大きいので、組合opを避けようとしています。 – Vortex

答えて