spark構造化ストリーミングでのバインドされていないテーブルの動作

たとえば、アプリケーションの起動時および実行時間が長い場合に単語"Spark"を受け取った場合、結果表に行（Spark、1）、spark構造化ストリーミングでのバインドされていないテーブルの動作

結果表に行を有していなければならないように塗布した後

は1日あるいは一週間実行されている、アプリケーションは、再び"Spark"を受信する（スパーク、2）。アプリケーションが長時間実行された後の状態は、超巨大な可能性があるため、無制限の表は、受信データの状態を保持する方法：私はちょうど問題を提起するために、シナリオ上で使用しています

。 "Complete"出力モードを使用するときに結果のテーブルが非常に大きい場合

また、、その後、沈み結果のテーブル内のすべてのデータを書き出す高価

出典

2017-11-08 Tom

非常に時間になりますメモリスパークにデータのこの巨大な量を回避してください構造化ストリーミングは透かしを使用する。主なアイデアは、特定の時間枠内のデータのみをメモリに格納することです。このウィンドウの外にあるすべてのデータはファイルシステムに保存されます。あなたは透かしについて読むことができますhereまたはhere

出典

2017-11-09 13:32:45

spark構造化ストリーミングでのバインドされていないテーブルの動作

答えて

関連する問題