-1
誰かが以下の質問をスピードアップする方法をアドバイスできるかどうか疑問に思っていましたか?私のHadoop Hiveクエリのスピードアップ
ありがとうございました!
select
CONCAT(REGEXP_EXTRACT(domain,'([^.:]+).[^.:]+:?[0-9]*$'), '.', REGEXP_EXTRACT(domain,'([^.:]+):?[0-9]*$')) as cleandomain,
dt, hour, sum(optimisedsize) as bytes, sum(optimisedsize)/1024000 as mb, count(*) as hits
from udsapp.web
where dt = 20170428
group by CONCAT(REGEXP_EXTRACT(domain,'([^.:]+).[^.:]+:?[0-9]*$'), '.', REGEXP_EXTRACT(domain,'([^.:]+).[^.:]+.[^.:]+:?[0-9]*$')), dt, hour, domain sort by bytes desc
実行時の計算を避けるために、regexp_extract部分が格納される別の列を作成します。 –
目的の結果を含むテーブル定義とデータサンプルを追加します –