2017-07-02 2 views
0

私はAWS Redshiftを使用して、ユーザーが自分のWebページで利用できない古いアーカイブデータに対してクエリを送信できるようにしています。赤方偏移COPYまたはスナップショット?

私はすべてのユーザー間で処理している合計データは数テラバイトです。データはすでにs3バケットにあり、週ごとにファイルに分割されます。ほとんどのリクエストでは、合計100GB以上のファイルは扱えません。

私がスナップショットを使用し、使用していないときに私たちのクラスタを削除すると、クエリを実行するときにすべてのデータを保持せず、S3の一時的なテーブルにCOPYデータのみを保持する、 ?

答えて

0

速度よりもコストの方が重要なクエリを実行する場合は、Amazon S3に格納されているデータをクエリできるAmazon Athenaの使用を検討することができます。 (現時点では一部のAWS地域でのみ有効です。)ディスクから読み取られるデータの量にのみ課金されます。

参照、さらに良い値アテナを作るための感謝を得るために:Analyzing Data in S3 using Amazon Athena

Amazon Redshift Spectrumはアテナと同様の作業を行うが、実行されているアマゾン赤方偏移のクラスタを必要とすることができます。

他のすべての選択肢は、コストとデータへのアクセスとのトレードオフです。まず、Amazon Redshiftデータベースのスナップショット、次にを夜間および週末のに設定することから始めてください。次に、クエリ用に自動的に復元できるスクリプトを用意します。 コストを削減するために、より少ないノードを使用してください。これによりクエリが遅くなりますが、それは問題ではないようです。

関連する問題