バッチ処理されるドキュメントの数を設定するにはどうすればよいですか？

Spark 2.2.0でのチェックポイント設定は、バージョンとは少し異なります。コミットフォルダーが作成され、各バッチの完了後にファイルがフォルダーに書き込まれます。バッチ処理されるドキュメントの数を設定するにはどうすればよいですか？

私は約10kのレコードがあり、5kレコードを処理した後でストリーミングジョブがほぼ途中で失敗するというシナリオに直面しています。チェックポイントディレクトリのコミットフォルダにファイルが書き込まれていないため、ジョブ、それは最初から始まり、5kレコードのデータ複製があります。

私が理解しているように、コミットファイルが書かれていて、再起動すると最新のオフセットからピックアップするように見えます。そうしないと、最後に成功したバッチのデータが再解析されます。

バッチ処理する文書数を設定するにはどうすればよいですか？

2017-07-20 vkr

ソースとは「文書」レコードはソースにありますか？ –

ソースはJSONデータです – vkr

バッチで処理するドキュメントの数を設定する方法はありますか？ kafka形式のファイルとmaxOffsetsPerTriggerため

使用maxFilesPerTrigger。

2017-07-20 19:52:59

答えて