2016-11-15 18 views
1

本の中で、次のように動作します:非同期更新のためのスパーク。

"バッチで作成されているため、共有データの非同期更新(たとえば、オンライントランザクション処理など)には適していません。スパークストリーミングは、時間ウィンドウ内のデータに適用されるバッチ分析です。これらのユースケースに特化したツールは、引き続き必要になります。

誰かが説明したのはそれですか?

私はいくつかのETLプロセスを実行するためにスパークを使用することに興味があります。私はカフカを途中で使用するつもりであることに注意してください。私は問題を理解していませんが。カフカからデータを取り込んでデータベースに書き込むのは、やはり同じ問題です。それはparrallelで行われます。

答えて

2

小規模なバッチでのスパークストリーミング - つまり、X時間ごとに、スパークはストリーミングソースから最後に読み込んだ後に利用可能なすべてのデータを読み取ります。それらはすべてのデータを一緒に処理します。

このバッチ処理は、レコードごとに作業する他のツール(Flink、Apexなど)とは異なり、ダウンストリームシステムの更新に固有の待ち時間(X時間)があることを意味します。ただし、OLTP宛先の更新に関しては、待ち時間があれば、通常はバッチ更新が効率的であるため、実際にはスループットが向上する可能性があります。

関連する問題