私は直接の回答を見つけることができませんでしたので、ここで質問したいと思いました。集計にETLを使用
ETLは、たとえばAWS Glueを使用して、任意の時間範囲にわたってAVG、MIN、MAXなどのデータの解像度を下げることができますか?
- 過去1ヶ月間の2000年以上の外気温データ点を考慮して、ETLジョブを使用して、その解像度を過去1か月間の1日平均30データポイントに下げます。 (そのようなデータの実際の使用例は、単なる例です)。
アイデアは、集計を実行してグラフ、グラフなどを作成する際のデータの解像度を下げることで、大きなデータセットの長い時間範囲をより迅速に表示することです。これらのグラフとグラフのオンザフライで
これまでの研究では、データの1から1への変換ではなく、1000から1への変換にETLを使用することを推奨しています。ETLは、データを適切な構造に変換して大きなデータセット。
集計ニーズを解決するためにETLを使用できますか?これは、AWSとPythonで実装された非常に大規模なものになります。
このようなタスクに対するAWSの適用性についてはコメントできませんが、ETLにはSQL GROUP BYを使用して多くの場合達成されるデータ行の集計を含めることができます。 AWSの使用を義務づけられていない場合は、明らかに状況の詳細に応じてさまざまな純粋なPythonソリューションが動作します。 –
ETLは一般的な概念であり、特定の解決策ではありません。あなたの研究よりもはるかに広いです。データウェアハウスにおける集約テーブルとディメンションテーブルの維持は、一般的なETLシナリオであり、いずれかのシナリオでは1:1とほとんど変わりません。 – Cyrus