0
スパークでは、データセットをRDDとしてロードしましたが、ストリーミングデータをあまり頻繁に追加しないようにしました。私はRDDがロックを簡単にするため不変であることを知っています。静的データとストリーミングデータを別々に処理する他の方法はありますか?スパークRDDのサポート
同様の質問は前に依頼されています Spark : How to append to cached rdd?
スパークでは、データセットをRDDとしてロードしましたが、ストリーミングデータをあまり頻繁に追加しないようにしました。私はRDDがロックを簡単にするため不変であることを知っています。静的データとストリーミングデータを別々に処理する他の方法はありますか?スパークRDDのサポート
同様の質問は前に依頼されています Spark : How to append to cached rdd?
はhttp://spark.apache.org/streaming/を見てください。
スパークストリーミングでは、反復処理できるRDDの集合を表すデータ構造を取得します。カフカキュー、ファイルシステムなどを聴いて、次のRDDに含める新しいデータを見つけることができます。
これらの「追加」を行うことはめったにない場合は、同じスキーマを持つ2つのRDDを結合して、新しい結合RDDを取得することができます。
ありがとうBrian。スパークストリーミングは私が本当に望むものに近いようです。分散型の可変表。私は静的なデータが大きいので、組合opを避けようとしています。 – Vortex