Data Node> S3BackupLocation> CompressionをGZIP
に設定して、AWSデータパイプラインを使用してDynamoDBテーブルをエクスポートしました。私は.gz
拡張で圧縮出力を期待していましたが、拡張子のない非圧縮出力を得ました。gzip形式でのDynamoDBのエクスポート
Further readingは、圧縮フィールドが「Amazon Redshiftでのみ使用可能で、CopyActivityでS3DataNodeを使用する場合にのみサポートされている」ことを示しています。
DynamoDBテーブルのgzipバックアップをS3に取得するにはどうすればよいですか?すべてのファイルをダウンロードし、gzipしてアップロードする必要がありますか? CopyActivityでパイプラインを動作させる方法はありますか?より良いアプローチがありますか?
私は、エクスポートにHiveを使用して実験していますが、まだ出力で書式設定権を取得する方法が見つかりませんでした。 EMRジョブが別のソースからのデータと一緒にそれを読むことができるように、それは以下のフォーマットと一致する必要があります。
{"col1":{"n":"596487.0550532"},"col2":{"s":"xxxx-xxxx-xxxx"},"col3":{"s":"xxxx-xxxx-xxxx"}}
{"col1":{"n":"234573.7390354"},"col2":{"s":"xxxx-xxxx-xxxx"},"col3":{"s":"xxxx-xxxxx-xx"}}
{"col2":{"s":"xxxx-xxxx-xxxx"},"col1":{"n":"6765424.7390354"},"col3":{"s":"xxxx-xxxxx-xx"}}