Apache Hive SQLのさまざまなWebサイトからWebサイトのデータを分析していますが、どのドメインが顧客の旅に関係しているかを調べたいと思います。ハイブSQL(グループの最初の値)のクリックストリームデータを集計するCTE SQL
id1 domain
--- ---
1 1
1 3
1 1
1 2
3 4
3 5
6 7
6 6
6 7
これはHIVEで行うことができる方法:
id1 domain
--- ---
1 1
1 1
1 1
1 3
1 1
1 2
3 4
3 5
3 5
6 7
6 6
6 7
が、私はこの構造にデータを変換したいと思い、正しい方法でデータを分析する: クリックストリームデータは、以下の構造を有していましたSQL?
どのタッチポイントがどのシーケンス/オーダーに含まれているかを調べ、ドメイン間の冗長クリックを取り除く必要があります。 Ultimatlyこの穴クエリは、このようなテーブルにつながるはず:
1: 1>3>1>2
3: 4>5
6: 7>6>7
私はそれが巣箱具体的な質問だと言うではないでしょう!
おかげです。その周りに別の方法がありますか? – Duesentrieb
私はその問題自体についてさらに詳しく知りたいと思います。あなたはどのように集約の問題に名前をつけますか?ありがとう – Duesentrieb