0

ダイナモDBテーブルから膨大な量のデータ(1億以上のエントリ)をRedshiftにコピーする作業をしており、いくつかの基準に基づいてデータをフィルタリングする必要があります。Redshift COPYコマンドとAWSデータパイプラインRedshiftCopyActivity

  1. 赤方偏移COPYコマンドを使用して::http://docs.aws.amazon.com/amazondynamodb/latest/developerguide/RedshiftforDynamoDB.htmlhttp://docs.aws.amazon.com/redshift/latest/dg/t_Loading-data-from-dynamodb.html)のこのタスクを達成します。 このアプローチの短所: COPYコマンドは、元のdynamo dbテーブルのスループットに影響を与え、本番DDBテーブルには使用することはお勧めしません。 (読み取り比率は、消費されるソースダイナモdbテーブルのプロビジョニングされたスループットの割合を調整します。この比率をソーステーブルの平均未使用プロビジョニングスループット未満の値に設定することをお勧めします)。

  2. AWS Datapipeline : RedshiftCopyActivityのみ:(http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-redshiftcopyactivity.html)を使用して、dynamo dbからredshiftに直接データをコピーし、redshiftでクエリを実行し、条件に基づいてフィルタリングします。

RedshiftCopyActivityを使用しているときにソースダイナモdbテーブルのスループットが影響を受けるかどうかについての情報が見つかりませんでした。誰かが同じ情報を提供してもらえますか?

また、dynamoDBからS3にデータをコピーし、S3からRedshiftにコピーすると、ダイナモDBからRedshiftに直接コピーするよりも有益でしょうか?

答えて

0

Dynamoに触れないようにしてください。一般的には、キーバリューストア以外のものに使用することは悪い考えです。レッドシフトではどんなロジックも起こるはずです。

関連する問題