2017-08-21 6 views
1

私はs3-dist-cpを使用して、より大きなジョブの一部として圧縮されたJSONファイルをS3からHDFSに移動しています。私はEMR 5.4で始まり、ほとんどの5.xでアップグレードしましたが、現在EMR 5.7の32台のマシンクラスタを問題なく走らせています。EMR 5.7からEMR 5.8にアップグレードすると、s3-dist-cpがOutOfMemoryExceptionで失敗する

EMR 5.8にアップグレードしようとすると、s3-dist-cpジョブが次のように失敗します。これを引き起こす5.7から5.8の間で変化したことはありますか?

# 
# java.lang.OutOfMemoryError: Java heap space 
# -XX:OnOutOfMemoryError="kill -9 %p 
kill -9 %p" 
# Executing /bin/sh -c "kill -9 11042 
kill -9 11042"... 
/usr/share/aws/emr/s3-dist-cp/bin/s3-dist-cp: line 55: 11042 Killed     hadoop jar "$S3_DIST_CP_JAR" -libjars "$LIBJARS" "[email protected]" 
Traceback (most recent call last): 
    ... 

答えて

1

それは遅すぎるかもしれないが、はい、そうでない場合はemr-に働くだろうEMR-5.8.0にS3-のdist-CPの仕事の障害になりS3-distの-CP上のバグがありました5.7.0。このバグはS3DistCpクライアントでOOMを引き起こす可能性があります。なぜなら、MapRedジョブが実際にサブミットされる前にS3オブジェクトのリストを表示すると、より多くのメモリを消費するからです。 5.9.0で修正されました。

+0

はい、サポートケースを開いてしまい、次のEMRリリースで修正されました。 – gae123

関連する問題