s3distcp

    0

    1答えて

    s3-dist-cpを使用して、S3からHDFSにファイルをコピーするEMRステップを持つEMRクラスタを生成しました。 このクラスタはオンデマンドクラスタで、私たちはそのIPを追跡していません。 最初のEMRステップは次のとおりです。 hadoop fs -mkdir /input - このステップは正常に完了しました。 二EMRステップは次のとおりです。 後は私がコマンドで使用して: - :

    0

    1答えて

    私のpysparkスクリプトでs3-dist-cpコマンドを実行する際にいくつかの問題がありました。 。パフォーマンス向上のためのHDFSへのS3からので、ここで私はこれを共有しています

    0

    1答えて

    私はLinuxコンソールによってステップを作成しようとしています:予想: aws emr add-steps --cluster-id j-XXXXXXXXXX --steps Type=CUSTOM_JAR,Name="S3DistCp step",Jar=/home/hadoop/lib/emr-s3distcp-1.0.jar,\ Args=["--s3Endpoint,s3-eu-wes

    0

    2答えて

    s3からHDFSに193 GBのデータをコピーしようとしています。私は、S3-distcpとHadoopのdistcpために、以下のコマンドを実行している:私はマスターノード上でこれらを実行しても転送されている量のチェックを維持しています s3-dist-cp --src s3a://PathToFile/file1 --dest hdfs:///user/hadoop/S3CopiedFiles

    0

    1答えて

    distcpを使用して、ファイルリスト(1Kファイル以上)をhdfsにコピーしたいと考えています。私はすでにローカルディレクトリにファイルのリストを格納していますが、今は-fを使ってすべてのファイルをコピーできますか?はいの場合、ファイルリストファイルでどのようなフォーマットを維持する必要がありますか?それとももっと良い方法がありますか?

    1

    1答えて

    s3-dist-cpツールを使用して寄木細工のファイル(スナッピー圧縮)をマージすることが可能かどうか疑問に思うだけです。私は "--groupBy"と " - targetSize"オプションを試して、小さなファイルを大きなファイルにマージしました。しかし、私はSparkやAWS Athenaでそれらを読むことはできません。すべてのヘルプは高く評価され HIVE_CURSOR_ERROR: Ex

    0

    3答えて

    emr-5.0.0バージョンでs3-dist-cpコマンドに関する問題に直面しています。私のアプリケーションでは、いくつかのファイルをhdfsからS3にプッシュする必要があります。私はこれを達成するためにs3-dist-cpコマンドを使用しています。 emr-4.2.0では正常に動作していました。しかし、emr-5.0.0では動作しません。手動でコマンドを実行すると正常に動作します。しかし、私のア