2016-12-20 3 views
0

kafkaから100レコードのデータを読み込み、マップステップを1回実行した後、各インターバルでstream.print(5)を呼び出す、非常に基本的なスパークストリーミングアプリケーションがあるとしましょう。すべてが正常に動作しています。 Sparkは各インターバルに5レコードを印刷します。私の質問は:印刷機能は、すべての100のレコードまたは5つの私が求めているマップステップを計算するスパークを行いますか? 私はいくつかのパフォーマンステストを実行しているので、sparkがすべてのデータのすべてのステップを実行することを確認したいだけです。スパークストリーミングでプリントを実行する

答えて

0

スパークはmapのステージ全体をDStreamで実行します。 5つのレコードしか印刷しないという事実は、それらがイテレータから消費されますが、すべてのデータが変換をパスすることを保証するためです。

関連する問題