処理されたバッチ対スパークストリーミングのRDD

SOの中のいくつかの回答（例：here）が表示されているので、バッチ内のレコードが1つのRDDになることを示唆しています。 batchIntervalが1分だとしたら、1つのRDDに直前のすべてのデータが含まれていると考えられます。処理されたバッチ対スパークストリーミングのRDD

注：バッチとRDDを直接比較するのではなく、内部的にSparkで処理されるバッチです。

出典

2017-04-25 Dr.Pro

は私がSpark Streaming guide

離散ストリームまたはDSTREAMがスパークストリーミングが提供する基本的な抽象化です引用してみましょう。これは、ソースから受信した入力データストリーム、または入力ストリームを変換することによって生成された処理済みデータストリームのいずれかのデータの連続ストリームを表します。内部的には、DStreamは連続した一連のRDDで表され、不変の分散データセットをSparkが抽象化しています（詳細はSpark Programming Guideを参照）。 DStreamの各RDDには、次の図に示すように、一定間隔のデータが含まれています。

enter image description here

あなたが見ることができるように

- 単一のバッチ=単一RDD。このため、データフローに応じてバッチ間隔を調整することは、アプリケーションの安定性にとって重要です。

出典

2017-04-25 23:00:29 user7922234

処理されたバッチ対スパークストリーミングのRDD

答えて

関連する問題