2017-12-29 10 views
1

spark.streaming.blockIntervalのブロックとSpark StreamingのRDDパーティションのブロックの違いは何ですか? 2.2.0ドキュメントストリーミングスパークを引用spark.streaming.blockIntervalはRDDパーティションにどのように関係していますか?

:ほとんどの受信機について

は、受信したデータはスパークのメモリ内格納する前にデータのブロックに一緒に合体されます。各バッチ内のブロック数によって、受信したデータをマップ形式の変換で処理するために使用されるタスクの数が決まります。

ブロックの数はブロック間隔に従って決定されます。また、rddパーティションの数を定義することもできます。私が思うに、彼らは同じではありません。彼らの違いは何ですか?

答えて

0

spark.streaming.blockInterval:Sparkストリーミング受信者が受信したデータを、Sparkに格納する前にデータブロックにチャンクします。これは受信機ベースアプローチを使用するときです - Receiver-based Approach

そしてKafkaUtils.createDirectStream()は受信機を使用しないため、DStream APIでは、Spark Streamingは、消費するKafkaパーティションと同じ数のRDDパーティションを作成します。 - Direct Approach (No Receivers)

つまり、ブロック間隔の設定はDStream APIでは使用できません。

関連する問題