リアルタイムデータウェアハウスのAmazon Redshiftを評価しています。する方法Amazon Redshiftにリアルタイムで読み込む?
データはストリーム配信され、Javaサービスを通じて処理され、データベースに格納されます。行ごとに(リアルタイム)処理し、トランザクションごとに1行だけ挿入します。
Amazon Redshiftへのリアルタイムデータ読み込みのベストプラクティスは何ですか?
JDBCを使用してINSERT INTO
文を実行するか、Kinesis Firehose、またはおそらくAWS Lambdaを使用しますか?
どちらも、Amazon S3を中間層として使用し、より大きいデータセットに適した「1行」の挿入ではないCOPY
コマンドを実行するため、これらのサービスのいずれかを使用することに懸念しています。
ほとんどのディメンションテーブル(100k-600k行)で実際のテーブルに約1TBのデータがあり、AWS Redshftは適切なソリューションのようです。しかし、リアルタイムのローディングが必須です。 – fenix
別のオプションは、Amazonに格納されたデータをスキャンするためにPrestoを使用する[Amazon Athena](http://docs.aws.amazon.com/athena/latest/ug/what-is.html)(現在は限定されたロールアウトである)ですS3。 S3にデータを保存してから、Athenaクエリを実行するだけです。データを圧縮したりパーティション化したり、ORC/Parquet形式で格納することができれば最適です。クエリではなく、更新ではなく、S3に直接格納してデータを更新します。 –