2017-04-25 8 views
0

SOの中のいくつかの回答(例:here)が表示されているので、バッチ内のレコードが1つのRDDになることを示唆しています。 batchIntervalが1分だとしたら、1つのRDDに直前のすべてのデータが含まれていると考えられます。処理されたバッチ対スパークストリーミングのRDD

注:バッチとRDDを直接比較するのではなく、内部的にSparkで処理されるバッチです。

答えて

1

は私がSpark Streaming guide

離散ストリームまたはDSTREAMがスパークストリーミングが提供する基本的な抽象化です引用してみましょう。これは、ソースから受信した入力データストリーム、または入力ストリームを変換することによって生成された処理済みデータストリームのいずれかのデータの連続ストリームを表します。内部的には、DStreamは連続した一連のRDDで表され、不変の分散データセットをSparkが抽象化しています(詳細はSpark Programming Guideを参照)。 DStreamの各RDDには、次の図に示すように、一定間隔のデータが含まれています。

enter image description here

あなたが見ることができるように

- 単一のバッチ=単一RDD。このため、データフローに応じてバッチ間隔を調整することは、アプリケーションの安定性にとって重要です。

関連する問題