0
Apache Impalaをテストしており、GROUP BYとLIKEを併用すると非常にゆっくりと動作することに気づきました。ここでは2つの例です:Group By and Likeを使用したImpalaクエリのパフォーマンスが遅い
# 1.37s 1.08s 1.35s
SELECT * FROM hive.default.pcopy1B where
(lower("by") like '%part%' and lower("by") like '%and%' and lower("by") like '%the%')
or (lower(title) like '%part%' and lower(title) like '%and%' and lower(title) like '%the%')
or (lower(url) like '%part%' and lower(url) like '%and%' and lower(url) like '%the%')
or (lower(text) like '%part%' and lower(text) like '%and%' and lower(text) like '%the%')
limit 100;
# 156.64s 155.63s
select "by", type, ranking, count(*) from pcopy where
(lower("by") like '%part%' and lower("by") like '%and%' and lower("by") like '%the%')
or (lower(title) like '%part%' and lower(title) like '%and%' and lower(title) like '%the%')
or (lower(url) like '%part%' and lower(url) like '%and%' and lower(url) like '%the%')
or (lower(text) like '%part%' and lower(text) like '%and%' and lower(text) like '%the%')
group by "by", type, ranking
order by 4 desc limit 10;
は、この問題が発生する理由を誰かが説明してください、そして任意の回避策があるかどうか?
2つのクエリは私と非常に異なるようです。最初のレコードはレコードを選択し、カーソルが1つだけ必要です.2番目のレコードはすべてのレコードを取得し、GROUPとSORTの両方を実行する必要があります。返されるレコードが非常に多い場合、これは時間の違いを説明するかもしれません。それとも私は何かが恋しい? – LSerni