1
私はsparkストリーミングジョブのチェックポイントディレクトリとしてeu-central-1領域のS3バケットを使用しています。Spark Streaming CheckpointingがS3例外をスローする
これは、そのディレクトリにデータを書き込みますが、すべての10番目のバッチは、次の例外で失敗します
org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 4040.0 failed 4 times, most recent failure: Lost task 0.3 in stage 4040.0 (TID 0, 127.0.0.1, executor 0): com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 400, AWS Service: Amazon S3, AWS Request ID: ..., AWS Error Code: null, AWS Error Message: Bad Request
これが発生した場合、バッチデータが失われます。どうすればこの問題を解決できますか?