2016-10-31 1 views
4

私はスパークストリーミングジョブを1秒のバッチで稼働させています。私はCDH 5.5 Spark 1.5を使用します。 Kafka Create Directstreamを使用します。バックプレッシャーを有効にしました。私たちは動的割り当てを訴えたくありません。そのため、ジョブはエグゼキュータの番号を修正して実行しました。突発スパークストリーミングジョブのスケジューリング遅延の増加他のパラメータの変更なし

投稿者:below image私は、これらが13.50からのスケジューリング遅延の突然の増加であることを見ることができます。しかし、同じ時間の間、私は処理時間にどんなデイリーも見ません。

  1. スケジューリング時間の増加の理由は何ですか?処理時間は同じです。
  2. クラスタ内の他のジョブのロードは、現在のストリーミングジョブに影響しますか。私の理解では、ストリーミングのエグゼクティブが事前に割り当てられて既に実行されているので、そうではないはずです。

どのような考えですか?

enter image description here

+0

これを解決できましたか?私はSparkストリーミングアプリで、Kafkaからの入力を読み取る(DirectKafkaStreamアプローチを使用して)非常に似た問題を抱えています – jithinpt

+0

私たちはこれに対して特別な解決策を持っていませんでした。 Batch DurationとExecutor MemoryとVcoresを使って遊んで、私たちの問題を解決しました。 –

答えて

0

これは確かに最初は奇妙な問題ですが、この時点Does other job loads in the cluster effect the current streaming jobに取得することができます。その答えは、別のプロセスが同じクラスタ上で実行を開始し、待っていると思われる時点で競合が発生する可能性がある場合、CPU共有が影響を受けることです。万が一、コンテナで火花を流していますか?また、あなたのクラスターをどのようにセットアップしているのか分からないので、あなたの問題を完全に理解することも難しいです。

+0

まあ私のクラスタは単純なCDH 5.5クラスタです。だから、スパークが糸で動いている。私はスパークジョブ用に作成されたリソースプールを専用に持っています。しかし、はい他のスパークバッチジョブは、同じプールを共有する –

関連する問題