S3にはGZIP CSV形式のファイルがたくさんあります(約20k-30kファイル)。 すべてのファイルに関係する分析(非常に単純)を実行したいと考えています。AWSアテナの問題 - 代替案
それは次のようになります。 S3:
//bucket-name/pt=something/dt=2017-01-01-00-00/1234/5432.csv.gz我々は試してみました:- AWS EMRですが、多くの小さな ファイルがあるため、非常に遅いようです。プロセスの前にs3-dist-cpをマージしようとしましたが、まだ が遅すぎます(ボトルネックはs3-dist-cpです)
- しかし、このツールはあたかも パーティションに常に が追加される必要があるため、プログラムでの実行を意図しています。パーティションをptとdt フィールドで定義しました。しかし、わかっている限り、各値は、ALTER TABLE ADD PARTITION ...を使用して を追加する必要があります。スケーラブルではありません。
多くのS3ファイルに対して単純なSQLクエリを実行する最適な方法は何ですか?
ありがとうございました!
https://aws.amazon.com/redshift/spectrum/ – Vorsprung
@Vorsprung - あまりにも多くの$$$と面倒な – Himberjack
私はAmazon Redshiftが非常に使いやすいと思っています。 Redshiftの価格設定や労力の面で懸念事項を共有できますか? –