2016-12-24 11 views
0

スパークでは、データセットをRDDとしてロードしましたが、ストリーミングデータをあまり頻繁に追加しないようにしました。私はRDDがロックを簡単にするため不変であることを知っています。静的データとストリーミングデータを別々に処理する他の方法はありますか?スパークRDDのサポート

同様の質問は前に依頼されています Spark : How to append to cached rdd?

答えて

1

http://spark.apache.org/streaming/を見てください。

スパークストリーミングでは、反復処理できるRDDの集合を表すデータ構造を取得します。カフカキュー、ファイルシステムなどを聴いて、次のRDDに含める新しいデータを見つけることができます。

これらの「追加」を行うことはめったにない場合は、同じスキーマを持つ2つのRDDを結合して、新しい結合RDDを取得することができます。

+0

ありがとうBrian。スパークストリーミングは私が本当に望むものに近いようです。分散型の可変表。私は静的なデータが大きいので、組合opを避けようとしています。 – Vortex