私はS3の位置が定義された外部ハイブテーブルが平行でないPyspark書き込みが
LOCATION 's3n://bucket/path/'
の束を集約pysparkジョブの終了時に、このテーブルに書き込みますデータは1つのエグゼキュータ/コンテナのみが書き込みに使用されているため、Hiveへの書き込みは非常に遅いです。 HDFSバックアップテーブルに書き込むとき、書き込みは並行して実行され、大幅に高速化されます。
s3aパスを使用してテーブルを定義しようとしましたが、曖昧なエラーのためにジョブが失敗します。
これはAmazon EMR 5.0(hadoop 2.7)のpyspark 2.0ですが、以前のバージョンのEMR/sparkで同じ問題が発生しました。
この書き込みをより効率的にするために使用できる設定ライブラリまたは代替ライブラリはありますか?
私は間違いなく同じ方法に行きます。 S3へのコピーよりもEMR/HDFSで書き込むほうがはるかに安いです。 – eliasah
Orcファイル形式を使用した場合と同じエクスペリエンス –
少なくともこれはhdfsへの書き込みとs3への移行のアプローチのいくつかの確認ですが、応答に感謝します。 –