2017-06-21 8 views
0

私は定期的にデータを追加するファイルから連続してデータを読むためにflinkを使用しています。私はflink.Butでこのメソッドの引数にFileInputFormatを記述する方法と混同してreadFileメソッドを使用しようとしました。私のファイル形式はjsonです。誰でも私にこれを手伝ってもらえますか?お気軽にflinkのreadFileメソッドでFileInputFormatを記述する方法は?

+0

readFile(新しいCustomInputFormat()、 "filePath")。カスタム入力フォーマットでは、TextInputFormatや既存のInputFormatクラスを拡張して、コードの再利用を利用できます。 – Sohi

答えて

2

FlinkのInputFormatは、同時に書き込まれるファイルからの読み込みには適していません。

この要件を前提として、ファイルをストリームとして消費し、FlinkのDataStream APIで処理する方法を探していると仮定します。その場合は、ファイルのサイズと進行状況を追跡し、ファイルを継続的に読み取るSourceFunctionを実装する必要があります。

しかし、私はこのデザインをお勧めしません。私はむしろ定期的に新しいファイルを開始し、それがファイナライズされて次のファイルが開始されたら、専用のフォルダに移動して消費することにします。