私はRedshift Cluster内のテーブルにmy S3バケットのCOPY
ログファイルにAWSを使用しています。各ファイルのサイズは約100MBで、まだ'gziped'
はありませんでした。私は600の論文ファイルを今も持っており、まだ成長しています。私のクラスタには2つのdc1.large
計算ノードと1つのリーダーノードがあります。s3からredshiftにファイルをコピーしようとしています
問題は、COPY
の動作時間が大きすぎます。少なくとも40分です。それをスピードアップする最良の方法は何ですか?
1)ノードのためのより良いマシンとより良いマシンを手に入れようか?
2)ファイルをgzipすれば、実際にはCOPY
稼働時間の点で重要ですか?
3)ここで役立つデザインパターンは何ですか?
感謝を@BigDataKid、私が試してみて、その結果で戻ってくるだろう。 –
4つのノードとgzipedファイルで20分を費やしました。 –