2016-11-28 8 views
0

私はキネシスストリームでスパークストリーミングをしています。 私のプロジェクトでは、最初のバッチでは の1バッチが使用されています(キューには数百万のアイテムが含まれており、ストリームの始めからタスクを開始するように指示されています)。 スパークストリーミングが10Kレコードのバッチを消費し始めます。 これは10/20秒ごとに発生します。スパークストリーミング+キネシス:最初のレコード消費

すなわち:スパークは、ストリームの先頭にアップcathcesまで

t0 -> records : 0 t1 -> records : 0 ..... t10 -> records: 10.000 -> total process time is 0.8s (lower than batch time) t11 -> recods : 0 .. t15 ->records : 0 .. t20 -> records: 10.000

このbeaviourが発生します。 htatの後、すべてのバッチは毎秒要素を処理します。

開始点では、レコードを処理していないバッチの数を増やすことなく、バッチごとに多数のレコードを一貫して処理する必要があります。

私が無視している設定はありますか?記述された振る舞いが期待されているか

enter image description here

enter image description here

+0

あなたは常に流れているレコードですか?あなたがあなたの質問からどれだけ正確にそれらを受け取っているかは不明です。 –

+0

@YuvalItzchakov私は1sバッチを設定しました。添付された画像はあなたの質問に答えるはずです(?)キネシスレシーバーが1台あります –

+0

あなたの画像は私の質問に答えていません。あなたは言う*それはバッチあたり多数のレコードを一貫して処理する必要があるような感じで、レコードを処理しないバッチの数を増やす必要はありません*しかし、Spark Streamingの場合と同様に動作しません。一度に10000メッセージのバッチを送信し、受信者がそれらを見て、それに*制限が設定されていない*場合、それらは完全に消費されます。 –

答えて

関連する問題