flumeを使用してデータをKafkaからHDFSに移動するためのflumeパイプラインを作成しました。私はロールオーバーサイズを150 MBに設定しており、ロールオーバーが正しく行われます。rolloverSizeが150 MBに設定されている場合、数秒ごとにFlumeメッセージを表示します。
しかし、私はメッセージをHDFSファイルに頻繁に書きたいのですが、現在のメッセージはバッファに保存され、150MBのサイズに達するとフラッシュされます。基本的には、ほぼリアルタイムでHDFSに書き込まれたmsessagesを取得し、150MBに達するとファイルをロールオーバーしたいと思います。
batchSizeプロパティを設定しようとしましたが、大した助けがありませんでした。
上記の要件は、flumeで実装することは可能ですか?
しかし、これは非常に小さなファイルを作成し、レコード数が非常に少なくなるため、hdfs内のブロックサイズが占有されます。 –
@コミュニティ:メッセージをすばやくフラッシュする方法はありますが、ロールオーバーは150MB /秒で行われるはずです。 –