今、私は最後の3ヶ月間に誰かの操作を集約するという要件があります。 MLモデルに結果を入力して異常を取得します。FLINKでスーパーサイズのウィンドウを扱うには?
システムの巨大な流れを考慮すると、非常に大きなウィンドウです。
このシナリオをどうすれば処理できますか?
今、私は最後の3ヶ月間に誰かの操作を集約するという要件があります。 MLモデルに結果を入力して異常を取得します。FLINKでスーパーサイズのウィンドウを扱うには?
システムの巨大な流れを考慮すると、非常に大きなウィンドウです。
このシナリオをどうすれば処理できますか?
あなたはデータセットを持っているので、Flinkのバッチ処理を使用できますが、flinkは真のストリーミングエンジンです。つまり、バッチはストリーミングの特別なケースとみなされます。もう1つの選択肢は、このようなバッチ処理にHadoopを使用することです。
私は、データがストリーミング形式で来ていると仮定し、そのストリームの上にウィンドウを作成する必要があるという仮定に基づいて質問に答えます。
これは、ウィンドウがメモリに格納されず、ウィンドウサイズの制限がハードウェアのハードディスクサイズのみに依存するため、RocksDBの状態バックエンドでこのような大きなサイズのウィンドウを作成できるということです。