データウェアハウスの要件としてBigQueryを検討しています。今、Googleのクラウド(クラウドSQLとBigTable)に自分のデータがあります。両方からデータを取得するためにREST APIを公開しました。今、これらのAPIからデータを取得し、ETLを実行してBigQueryにデータをロードしたいと思います。私は今、ETL(時給データのための仕事の日々の周波数)の2つのオプションを評価しています: -Google CloudのETL - (データフローvs.バッチバッチ) - > BigQuery
- 使用するJavaの春のバッチとはmicroserviceを作成し、デプロイメント環境としてKubernetesを使用しています。それは拡大縮小しますか? (ソースの新しいデータが利用可能にする場合増分ロード用)ETL
ため
あなたの意見をお知らせください。あなたのデータボリュームを知らず
@Eric ...回答ありがとうございます...このAPIから、私は毎日集計する2番目のデータデータを取得できます。このAPIは各呼び出しで最大10000データポイントを与えることができます...それにもページ分割のサポートがあります。 (各測定値の1日の入力) - 365(日数なし)* 10,000(全エンティティ)* 1000(合計測定値) = 3650000000(約40億) – Abhay
@abhay - 私は私の答えで立っている、私はDataflowに行くだろう。ワークフローの毎日の流れはテンプレートでうまく機能し、BY日にパーティションを分割してクエリを費用対効果の高いものにすることができます。 –
@ Eric ..答えに感謝 – Abhay