2017-03-23 1 views
0

私はthis問題と同じ問題を解決しようとしていますが、SQL Serverの2014年で、この時間は、私は文字列が同じ言葉で作られているかどうかを確認する必要があります。SQL Server 2014で2つの文字列に同じ単語が含まれている場合の比較方法は?

戻りのために:

Antoine de Saint-Exupéry = de Saint-Exupéry Antoine = Saint-Exupéry Antoine de = etc. 

戻り値のため

Antoine de Saint-Exupéry != Antoine de Saint != Antoine Antoine de Saint-Exupéry != etc. 

SQL Server 2014のオプションは何ですか?そのような比較のための組み込み関数はありますか?

+2

ありません。より多くの単語。 – Jeremy

+0

いいえ、自分で展開する必要があります – TheGameiswar

+0

文字列をスペースで分割し、ソートされたコンテンツを比較します。 –

答えて

1

これはあなたのために自分自身をロールバックする方法です。私はJeff Modenの文字列スプリッタを使用しています。ここでオリジナルの記事を見つけることができます。 http://www.sqlservercentral.com/articles/Tally+Table/72993/。あなたがそのスプリッタが気に入らなければ、他にもいくつかの素晴らしいバージョンがあります。 https://sqlperformance.com/2012/07/t-sql-queries/split-strings。私はJeff Modenのものが好きです。なぜなら、他のスプリッタとは異なり、場合によっては非常に便利なItemNumberが返されるからです。

CREATE FUNCTION [dbo].[DelimitedSplit8K] 
--===== Define I/O parameters 
     (@pString VARCHAR(8000), @pDelimiter CHAR(1)) 
--WARNING!!! DO NOT USE MAX DATA-TYPES HERE! IT WILL KILL PERFORMANCE! 
RETURNS TABLE WITH SCHEMABINDING AS 
RETURN 
--===== "Inline" CTE Driven "Tally Table" produces values from 1 up to 10,000... 
    -- enough to cover VARCHAR(8000) 
    WITH E1(N) AS (
       SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL 
       SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL 
       SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 
       ),       --10E+1 or 10 rows 
     E2(N) AS (SELECT 1 FROM E1 a, E1 b), --10E+2 or 100 rows 
     E4(N) AS (SELECT 1 FROM E2 a, E2 b), --10E+4 or 10,000 rows max 
cteTally(N) AS (--==== This provides the "base" CTE and limits the number of rows right up front 
        -- for both a performance gain and prevention of accidental "overruns" 
       SELECT TOP (ISNULL(DATALENGTH(@pString),0)) ROW_NUMBER() OVER (ORDER BY (SELECT NULL)) FROM E4 
       ), 
cteStart(N1) AS (--==== This returns N+1 (starting position of each "element" just once for each delimiter) 
       SELECT 1 UNION ALL 
       SELECT t.N+1 FROM cteTally t WHERE SUBSTRING(@pString,t.N,1) = @pDelimiter 
       ), 
cteLen(N1,L1) AS(--==== Return start and length (for use in substring) 
       SELECT s.N1, 
         ISNULL(NULLIF(CHARINDEX(@pDelimiter,@pString,s.N1),0)-s.N1,8000) 
        FROM cteStart s 
       ) 
--===== Do the actual split. The ISNULL/NULLIF combo handles the length for the final element when no delimiter is found. 
SELECT ItemNumber = ROW_NUMBER() OVER(ORDER BY l.N1), 
     Item  = SUBSTRING(@pString, l.N1, l.L1) 
    FROM cteLen l 
; 

基本的なコンセプトは、文字列を単語に分割してから比較することです。私は2 ctesを使用したので、これがどのように動作するのかは明らかです。あなたが投稿したすべての例について、以下のように動作します。

declare @Phrase1 nvarchar(100) = 'Antoine de Saint-Exupéry' 
    , @Phrase2 nvarchar(100) = 'de Saint-Exupéry Antoine' 
; 

with Phrase1 as 
(
    select * 
    from DelimitedSplit8K(@Phrase1, ' ') 
) 
, Phrase2 as 
(
    select * 
    from DelimitedSplit8K(@Phrase2, ' ') 
) 

select PhrasesEqual = convert(bit, case when count(*) > 0 then 1 else 0 end) 
from Phrase1 p1 
full outer join Phrase2 p2 on p2.Item = p1.Item 
where p1.Item is null 
    or p2.Item is null 
; 
1

2つの文字列を比較するために、一つは 虐待 は、XQueryでのソート機能を使用することができます。

文字列をXMLにキャストし、要素をソートしてタグなしで文字列を返します。例えば

DECLARE @Words1 NVARCHAR(MAX) = N'Antoine de Saint-Exupéry'; 
DECLARE @Words2 NVARCHAR(MAX) = N'Saint-Exupéry Antoine de'; 

DECLARE @SortedWords1 NVARCHAR(MAX) = cast('<x>'+replace(@Words1,' ','</x><x>')+'</x>' as XML).query('for $x in /x order by $x ascending return $x').value('.','nvarchar(max)'); 
DECLARE @SortedWords2 NVARCHAR(MAX) = cast('<x>'+replace(@Words2,' ','</x><x>')+'</x>' as XML).query('for $x in /x order by $x ascending return $x').value('.','nvarchar(max)'); 

DECLARE @SameWords BIT = (case 
          when @SortedWords1 = @SortedWords2 
          then 1 
          else 0 
          end); 


SELECT @SameWords as SameWords; 

戻り値:

SameWords 
--------- 
True 
関連する問題