2017-08-16 8 views
0

私には概念的な質問がたくさんあります。私はデータをプルするためにHiveを使用しています。次に、取得したすべての値をIBM BigSQL(基本的にはDB2)に挿入して、集計データがより簡単に/より速くなるようにします。だから私は夜間にCTASを実行してテーブルを取得し、それをdb2に移行して残りの集計を行うことができるように、Hiveでビューを作成したいと考えています。 より良い方法がありますか? ハイブで集約を含めてすべてをやりたかったのですが、非常に遅いです。ハイブ以外の集約がより良い選択ですか?

お寄せいただきありがとうございます!

+0

という疑問があります。どのくらいの頻度でプロセスを実行しますか?あなたの現在のデータはどのフォーマットですか?データの変更頻度それは新しいレコードだけであるか、既存のレコードを変更しますか? – hlagos

+0

@lake現在のプロセスはETLを実行することです毎日前の日です。既存のレコードは変更されません。進行中のイベントストリームから新しいJSONデータフォーマットを読み込むだけです。 – codeBarer

+0

あなたはどのディストリを使用していますか?どのような集約をしていますか? – hlagos

答えて

1

あなたがClouderaを使用していることを考慮すると、Impalaで集計を実行しない理由はありますか? jsonデータを寄木張りに変換してください(ネストされた構造がたくさんない場合はこれをお勧めします)。あなたがやっている集約の種類に応じて、もう一つの選択肢は、データを変換するためにSparkを使うことです(あなたのクラスタのサイズにもよります)。より具体的なヒントをお伝えしたいと思いますが、集計が複雑であるかどうかわからない場合は、

関連する問題