2016-04-13 10 views
1

重複レコードの日付の差が96時間以上または4日以上ある場合は重複レコードを取り消す必要があります。最初のエントリまたは最も古い日付。日付差が4日または96時間以上の場合に重複行を返す方法

ID   SDATE 
----------- ----------------------- 
1   2016-04-13 14:54:18.983 
1   2016-04-08 12:55:47.907 
2   2016-04-13 14:54:18.983 
3   2016-04-13 14:54:18.983 
4   2016-04-13 14:54:18.983 
5   2016-04-13 14:54:18.983 
5   2016-04-11 12:55:47.907 
6   2016-04-13 14:54:18.983 
6   2016-04-13 14:54:18.983 

期待される結果:私のテーブルは次のようになり

ID   SDATE 
----------- ----------------------- 
1   2016-04-13 14:54:18.983 
1   2016-04-08 12:55:47.907 
2   2016-04-13 14:54:18.983 
3   2016-04-13 14:54:18.983 
4   2016-04-13 14:54:18.983  
5   2016-04-11 12:55:47.907 
6   2016-04-13 14:54:18.983 

私は次のクエリを試してみましたが、それは動作しません。

WITH tt AS (
SELECT 1 as ID, GETDATE() as SDATE 
UNION ALL 
SELECT 1 as ID, '2016-04-09 12:55:47.907' as SDATE 
UNION ALL 
SELECT 2 as ID, GETDATE() as SDATE 
UNION ALL 
SELECT 3 as ID, GETDATE() as SDATE 
UNION ALL 
SELECT 4 as ID, GETDATE() as SDATE 
UNION ALL 
SELECT 5 as ID, GETDATE() as SDATE 
UNION ALL 
SELECT 5 as ID, '2016-04-11 12:55:47.907' as SDATE 
UNION ALL 
SELECT 6 as ID, GETDATE() as SDATE 
UNION ALL 
SELECT 6 as ID, GETDATE() as SDATE 
) 
SELECT MIN(SDATE) as SDATE, ID FROM tt as tbl 
GROUP BY ID, DATEADD(HH, DATEDIFF(HH,0,SDATE) + 96,0) 
+1

あなたが(HHまたはDAY)の期間を変更することができ、列を無視しますか? '{'2016-04-01 06:00:00.000'、 '2016-04-03 18:00:00.000'、 '2016-04-06 06:00:00.000'}'?各レコードの間隔は4日未満ですが、最初と最後のレコードは5日間隔です。 – MatBailie

+0

IDが3つ、最初の日付が「1/4/2016」、第2の日付が「3/4/2016」、第3の日付が「6/4/2016」の場合、 1番目と3番目のものは2番目の複製です。どちらを削除する必要がありますか? – sagi

+2

@MatBailie Hah、同じ質問、同じ日付。 – sagi

答えて

1

以下のクエリが期待される結果を返す、インラインコメントを追加しました:

-- Simply grouping each ID and get unique row with minimum date 
SELECT MIN(SDATE) [SDate], ID 
FROM tt 
GROUP BY ID 

UNION 

-- Get the row with each ID's difference is more than 96 hours 
SELECT D.MaxDate [SDate], D.ID 
FROM (
    SELECT MIN(SDATE) [MinDate], MAX(SDATE) [MaxDate], ID 
    FROM tt 
    GROUP BY ID 
) D 
WHERE DATEDIFF(HH, D.MinDate, D.MaxDate) >= 96 
+0

私は確信していません。第1、第4、第7、第10、第13日の日程は?この答えは、最後の3つの結果がそれぞれわずか3日のギャップを持っていても、「第1、第7、第10、第13」を返します。これは間違っていると言っているわけではありません。OPはそのような場合の要件についてはっきりしていません。 – MatBailie

0

クエリの下に試してみてください、私はそれが正常に動作してテストしています。

では1つが `id`には、以下の3つのレコードを持っている場合はどうするか

-- drop table #temptbl

WITH tt AS (
SELECT 1 as ID, GETDATE() as SDATE 
UNION ALL 
SELECT 1 as ID, '2016-04-09 12:55:47.907' as SDATE 
UNION ALL 
SELECT 2 as ID, GETDATE() as SDATE 
UNION ALL 
SELECT 3 as ID, GETDATE() as SDATE 
UNION ALL 
SELECT 4 as ID, GETDATE() as SDATE 
UNION ALL 
SELECT 5 as ID, GETDATE() as SDATE 
UNION ALL 
SELECT 5 as ID, '2016-04-11 12:55:47.907' as SDATE 
UNION ALL 
SELECT 6 as ID, GETDATE() as SDATE 
UNION ALL 
SELECT 6 as ID, GETDATE() as SDATE 
) 
SELECT Id,SDATE,case when DATEDIFF(HH,SDATE,GETDATE()) >94 THEN 0 else 1 end AS ignore, 
    ROW_NUMBER() OVER (PARTITION BY tt.ID ORDER BY tt.SDATE desc) as Rowid 
INTO #temptbl 
FROM tt 
SELECT Id, sdate from #temptbl 
WHERE (#temptbl.ignore = 0) or (#temptbl.Rowid = 1) 

0
declare @table table 
(
ID int,   SDATE datetime) 
insert into @table 
(
ID  ,SDATE) 
values 
(1,'2016-04-13 14:54:18'), 
(1,'2016-04-08 12:55:47'), 
(2,'2016-04-13 14:54:18'), 
(3,'2016-04-13 14:54:18'), 
(4,'2016-04-13 14:54:18'), 
(5,'2016-04-13 14:54:18'), 
(5,'2016-04-11 12:55:47'), 
(6,'2016-04-13 14:54:18'), 
(6,'2016-04-13 14:54:18') 


;with cte as 
(
select id,min(sdate) mindate,max(sdate) maxdate, datediff(dd,min(sdate),max(sdate)) daysdiff,count(*) as Dups 
from @table 
group by id 
) 
select cte.id, t.sdate 
from cte 
join @table t on t.id = cte.id 
where cte.dups > 1 and cte.daysdiff > 4 
union all 
select cte.id, 
     mindate 
from cte 
where (cte.dups > 1 and cte.daysdiff <= 4) or 
     cte.dups = 1