S3に格納されたデータをこのようなハイブ形式でパーティション化しました。Athenaからs3データへのクエリパフォーマンスを向上させる方法
bucket/year=2017/month=3/date=1/filename.json
bucket/year=2017/month=3/date=2/filename1.json
bucket/year=2017/month=3/date=3/filename2.json
すべてのパーティションには、約1,000,000レコードがあります。私はこのためにAthenaにテーブルとパーティションを作成しました。
は今、このクエリは1,000,000レコードをスキャンするために1800秒を取っているアテナ
select count(*) from mts_data_1 where year='2017' and month='3' and date='1'
からクエリを実行しています。
私の質問は、このクエリのパフォーマンスを向上させる方法です。
パーティションの列の定義は何ですか? –
PARTITIONED BY(年の文字列、月の文字列、日付の文字列) – Shailendra
このクエリでは、Athenaのスキャンのデータファイルとバイト数はいくつですか? – James