0
私のpysparkスクリプトでs3-dist-cpコマンドを実行する際にいくつかの問題がありました。 。パフォーマンス向上のためのHDFSへのS3からので、ここで私はこれを共有していますEMR 5.xのpysparkシェル/ pysparkスクリプト内で "s3-dist-cp"コマンドを実行する方法
私のpysparkスクリプトでs3-dist-cpコマンドを実行する際にいくつかの問題がありました。 。パフォーマンス向上のためのHDFSへのS3からので、ここで私はこれを共有していますEMR 5.xのpysparkシェル/ pysparkスクリプト内で "s3-dist-cp"コマンドを実行する方法
Import os
os.system("/usr/bin/s3-dist-cp --src=s3://aiqdatabucket/aiq-inputfiles/de_pulse_ip/latest/ --dest=/de_pulse/ --groupBy='.*(additional).*' --targetSize=64 --outputCodec=none")
注: - 。あなたは(は/ usr/binに/ S3-distのようなS3-のdist-CPのフルパスを与えることを確認してください。 -cp)
サブプロセスも使用できると思います。