2017-06-23 4 views
1

私はsparkストリーミングジョブのチェックポイントディレクトリとしてeu-central-1領域のS3バケットを使用しています。Spark Streaming CheckpointingがS3例外をスローする

これは、そのディレクトリにデータを書き込みますが、すべての10番目のバッチは、次の例外で失敗します

org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 4040.0 failed 4 times, most recent failure: Lost task 0.3 in stage 4040.0 (TID 0, 127.0.0.1, executor 0): com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 400, AWS Service: Amazon S3, AWS Request ID: ..., AWS Error Code: null, AWS Error Message: Bad Request 

これが発生した場合、バッチデータが失われます。どうすればこの問題を解決できますか?

答えて

0

S3ゾーンがV4認証を使用しているため、eu-central-1のバケットとの認証例外になりました。

ドライバ自体には設定されていますが、ワーカーには設定されていないため、動作するものと動作しないものがあります。

関連する問題