2017-04-12 9 views
3

当社は、S3で休止しているすべてのデータを暗号化する必要があります。私はdask.dataframeで遊んとS3に保存された寄木細工の中に私のデータセットのいずれかをエクスポートするが、暗号化をオンにする任意のオプションを見つけることができないのですdask.dataframeのto_parquetはサーバー側の暗号化をサポートしていますか?

aws s3 cp a.txt s3://b/test --sse 

:我々はS3オブジェクトをアップロードする際に通常、我々のような何かを行います。 dask.dataframeを使用して暗号化を適用する方法

答えて

3

現在のところ、s3fsに実装されています。これは、daskがS3に書き込むバックエンドです。 S3FileSystemのコンストラクタに以下のパラメータを(いくつかの)追加することで、boto3 s3clientの呼び出し回数を減らして追加するのは難しくありません。 to_parquet()を呼び出すと、パラメータはstorage_options=に含まれます。

ServerSideEncryption='AES256'|'aws:kms', 
SSECustomerAlgorithm='string', 
SSECustomerKey='string', 
SSEKMSKeyId='string', 

ファイルシステムのインスタンスでも、これらのファイルごとに設定するオプションもあります。 PRを試みてください! SSEはmotoに実装されていない可能性がありますので、テストの使用は難しいかもしれません。

あなたのケースでは、これらの値の一部は、おそらくawsコマンドによって~/.aws/のような標準的な場所から読み取られていることに注意してください。

関連する問題