2017-11-08 6 views
1

たとえば、アプリケーションの起動時および実行時間が長い場合に単語"Spark"を受け取った場合、結果表に行(Spark、1)、spark構造化ストリーミングでのバインドされていないテーブルの動作

結果表に行を有していなければならないように塗布した後

は1日あるいは一週間実行されている、アプリケーションは、再び"Spark"を受信する(スパーク、2)。アプリケーションが長時間実行された後の状態は、超巨大な可能性があるため、無制限の表は、受信データの状態を保持する方法:私はちょうど問題を提起するために、シナリオ上で使用しています

"Complete"出力モードを使用するときに結果のテーブルが非常に大きい場合

また、、その後、沈み結果のテーブル内のすべてのデータを書き出す高価

答えて

1

非常に時間になりますメモリスパークにデータのこの巨大な量を回避してください構造化ストリーミングは透かしを使用する。主なアイデアは、特定の時間枠内のデータのみをメモリに格納することです。このウィンドウの外にあるすべてのデータはファイルシステムに保存されます。あなたは透かしについて読むことができますhereまたはhere

関連する問題