2016-09-15 16 views
0

私は、KMS(SSEカスタムキー)、Parquetファイルで暗号化されたAWS EMR 5.0、Spark 2.0、Scala 2.11、S3を使用しています。私は暗号化された寄木細工のファイルを読むことができます - 問題はありません。しかし、私が書くとき、私は警告を得る。簡体字コードは次のようになります。AWS EMRのKMS暗号化S3寄木細工ファイルへの書き込み

val headerHistory = spark.read.parquet("s3://<my bucket>/header_1473640645") 
headerHistory.write.parquet("s3://<my bucket>/temp/") 

が、警告を生成:私のbucket.s3.amazonaws.comに要求を再送信しよう:

16/09/15夜01時11分11秒はS3V4AuthErrorRetryStrategyがWARNをAWS V4認証を使用します。今後この警告が表示されないようにするには、地域固有のエンドポイントを使用して、V4署名が必要な地域にあるバケットにアクセスしてください。

オプションが必要ですか?いくつかの環境変数を設定する必要がありますか?

答えて

1

ありがとうございました。

はい、これは、EMRFS(s3通信用のフードの下にあるライブラリ)を使用する場合、KMS + SSEの既知の問題です。

問題は、サーバー側の暗号化+ kmsが有効な場合、emrfsのs3clientが署名者の種類を指定せずに要求を作成したことです。 慎重に、s3は最初にV2を試行し、最初の試行が失敗した場合はV4で再試行します。このような動作は、プロセス全体の速度を低下させます。 EMRFSは最初の試みでV4を使用するように指定するためにパッチが適用されますが、これは次のEMRリリースで修正される必要があります。

前述のとおり、ジョブを中断しません。

https://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-whatsnew.html

(なしETA)来EMR-5.xのために目を保つませんしてください
関連する問題