ハイブ以外の集約がより良い選択ですか？

私には概念的な質問がたくさんあります。私はデータをプルするためにHiveを使用しています。次に、取得したすべての値をIBM BigSQL（基本的にはDB2）に挿入して、集計データがより簡単に/より速くなるようにします。だから私は夜間にCTASを実行してテーブルを取得し、それをdb2に移行して残りの集計を行うことができるように、Hiveでビューを作成したいと考えています。より良い方法がありますか？ハイブで集約を含めてすべてをやりたかったのですが、非常に遅いです。ハイブ以外の集約がより良い選択ですか？

お寄せいただきありがとうございます！

出典

2017-08-16 codeBarer

という疑問があります。どのくらいの頻度でプロセスを実行しますか？あなたの現在のデータはどのフォーマットですか？データの変更頻度それは新しいレコードだけであるか、既存のレコードを変更しますか？ – hlagos

@lake現在のプロセスはETLを実行することです毎日前の日です。既存のレコードは変更されません。進行中のイベントストリームから新しいJSONデータフォーマットを読み込むだけです。 – codeBarer

あなたはどのディストリを使用していますか？どのような集約をしていますか？ – hlagos

あなたがClouderaを使用していることを考慮すると、Impalaで集計を実行しない理由はありますか？ jsonデータを寄木張りに変換してください（ネストされた構造がたくさんない場合はこれをお勧めします）。あなたがやっている集約の種類に応じて、もう一つの選択肢は、データを変換するためにSparkを使うことです（あなたのクラスタのサイズにもよります）。より具体的なヒントをお伝えしたいと思いますが、集計が複雑であるかどうかわからない場合は、

出典

2017-08-17 16:21:44 hlagos

ハイブ以外の集約がより良い選択ですか？

答えて

関連する問題