2017-05-19 12 views
0

私は直接の回答を見つけることができませんでしたので、ここで質問したいと思いました。集計にETLを使用

ETLは、たとえばAWS Glueを使用して、任意の時間範囲にわたってAVG、MIN、MAXなどのデータの解像度を下げることができますか?

- 過去1ヶ月間の2000年以上の外気温データ点を考慮して、ETLジョブを使用して、その解像度を過去1か月間の1日平均30データポイントに下げます。 (そのようなデータの実際の使用例は、単なる例です)。

アイデアは、集計を実行してグラフ、グラフなどを作成する際のデータの解像度を下げることで、大きなデータセットの長い時間範囲をより迅速に表示することです。これらのグラフとグラフのオンザフライで

これまでの研究では、データの1から1への変換ではなく、1000から1への変換にETLを使用することを推奨しています。ETLは、データを適切な構造に変換して大きなデータセット。

集計ニーズを解決するためにETLを使用できますか?これは、AWSとPythonで実装された非常に大規模なものになります。

+2

このようなタスクに対するAWSの適用性についてはコメントできませんが、ETLにはSQL GROUP BYを使用して多くの場合達成されるデータ行の集計を含めることができます。 AWSの使用を義務づけられていない場合は、明らかに状況の詳細に応じてさまざまな純粋なPythonソリューションが動作します。 –

+1

ETLは一般的な概念であり、特定の解決策ではありません。あなたの研究よりもはるかに広いです。データウェアハウスにおける集約テーブルとディメンションテーブルの維持は、一般的なETLシナリオであり、いずれかのシナリオでは1:1とほとんど変わりません。 – Cyrus

答えて

0

ETLの 'T'は '変換'を表し、集計は最も一般的なものの1つです。簡単に言えば:はい、ETLはあなたのためにこれを行うことができます。残りは特定のニーズに依存します。どんなドリルダウンが必要ですか?おそらくズームの解像度を上げる?これはデザイン全体に影響しますが、一般にプレゼンテーション層のデータを準備することは、まさにETLが使用されるものです。