0
私は定期的にデータを追加するファイルから連続してデータを読むためにflinkを使用しています。私はflink.Butでこのメソッドの引数にFileInputFormatを記述する方法と混同してreadFileメソッドを使用しようとしました。私のファイル形式はjsonです。誰でも私にこれを手伝ってもらえますか?お気軽にflinkのreadFileメソッドでFileInputFormatを記述する方法は?
私は定期的にデータを追加するファイルから連続してデータを読むためにflinkを使用しています。私はflink.Butでこのメソッドの引数にFileInputFormatを記述する方法と混同してreadFileメソッドを使用しようとしました。私のファイル形式はjsonです。誰でも私にこれを手伝ってもらえますか?お気軽にflinkのreadFileメソッドでFileInputFormatを記述する方法は?
FlinkのInputFormatは、同時に書き込まれるファイルからの読み込みには適していません。
この要件を前提として、ファイルをストリームとして消費し、FlinkのDataStream APIで処理する方法を探していると仮定します。その場合は、ファイルのサイズと進行状況を追跡し、ファイルを継続的に読み取るSourceFunctionを実装する必要があります。
しかし、私はこのデザインをお勧めしません。私はむしろ定期的に新しいファイルを開始し、それがファイナライズされて次のファイルが開始されたら、専用のフォルダに移動して消費することにします。
readFile(新しいCustomInputFormat()、 "filePath")。カスタム入力フォーマットでは、TextInputFormatや既存のInputFormatクラスを拡張して、コードの再利用を利用できます。 – Sohi