私には概念的な質問がたくさんあります。私はデータをプルするためにHiveを使用しています。次に、取得したすべての値をIBM BigSQL(基本的にはDB2)に挿入して、集計データがより簡単に/より速くなるようにします。だから私は夜間にCTASを実行してテーブルを取得し、それをdb2に移行して残りの集計を行うことができるように、Hiveでビューを作成したいと考えています。 より良い方法がありますか? ハイブで集約を含めてすべてをやりたかったのですが、非常に遅いです。ハイブ以外の集約がより良い選択ですか?
お寄せいただきありがとうございます!
という疑問があります。どのくらいの頻度でプロセスを実行しますか?あなたの現在のデータはどのフォーマットですか?データの変更頻度それは新しいレコードだけであるか、既存のレコードを変更しますか? – hlagos
@lake現在のプロセスはETLを実行することです毎日前の日です。既存のレコードは変更されません。進行中のイベントストリームから新しいJSONデータフォーマットを読み込むだけです。 – codeBarer
あなたはどのディストリを使用していますか?どのような集約をしていますか? – hlagos