SOの中のいくつかの回答(例:here)が表示されているので、バッチ内のレコードが1つのRDDになることを示唆しています。 batchIntervalが1分だとしたら、1つのRDDに直前のすべてのデータが含まれていると考えられます。処理されたバッチ対スパークストリーミングのRDD
注:バッチとRDDを直接比較するのではなく、内部的にSparkで処理されるバッチです。
SOの中のいくつかの回答(例:here)が表示されているので、バッチ内のレコードが1つのRDDになることを示唆しています。 batchIntervalが1分だとしたら、1つのRDDに直前のすべてのデータが含まれていると考えられます。処理されたバッチ対スパークストリーミングのRDD
注:バッチとRDDを直接比較するのではなく、内部的にSparkで処理されるバッチです。
離散ストリームまたはDSTREAMがスパークストリーミングが提供する基本的な抽象化です引用してみましょう。これは、ソースから受信した入力データストリーム、または入力ストリームを変換することによって生成された処理済みデータストリームのいずれかのデータの連続ストリームを表します。内部的には、DStreamは連続した一連のRDDで表され、不変の分散データセットをSparkが抽象化しています(詳細はSpark Programming Guideを参照)。 DStreamの各RDDには、次の図に示すように、一定間隔のデータが含まれています。
あなたが見ることができるように
- 単一のバッチ=単一RDD。このため、データフローに応じてバッチ間隔を調整することは、アプリケーションの安定性にとって重要です。