2017-06-16 16 views
2

は私が約33000例を含むデータセット内の文字列変数に基づいて重複例を見つけるとSPSSの小説苦労していますされています。重複例を見つけること、文字列変数、SPSS

私はすべてのケースのためのユニークなIDであると考えられる「NR」という名前の変数を持っています。しかし、いくつかのケースでは、 "nr"に2つの異なる値が入力されている可能性がありますが、唯一の違いは最後の文字です。結果として、2つの別々の行として表示されます。 XX-XXXXXXX-XまたはX-XXXXXXX-Xすなわち2-7-1文字または1-7-1文字を次のよう

VAR "NR" の構造です。

私は最後の文字を除いて、他の場合と同等の「NR」を持っているすべてのケースを整理したいと思います。

20-4026988-2
20-4026988-3

5から4026992:

は、私はうまくいけば全体のデータセットからこのような例を整理することができるだろうsuccesfullの構文を使用して、説明するために、誰もが持っている-5
5-4026992-8

20-4027281-2
20-4027281-3

これのための構文を作る方法に関するアイデア?入力にとても感謝しています!

答えて

0

は、私はその最後の文字のない新しい変数を作成し、ダブルスを探すためにお勧め:

* first creating some sample data to play with.  
data list list/ID (a15). 
begin data. 
20-4026988-2 
12-2345678-7 
20-4026988-3 
5-4026992-5 
5-4026992-8 
12-1234567-1 
20-4027281-2 
6-1234567-1 
20-4027281-3 
end data. 

* now creating the new variable and counting the occurrences of each shortened ID. 
string ShortID (a15). 
compute ShortID=char.substr(ID,1,char.rindex(ID,"-")). 
* also possible: compute ShortID=char.substr(ID,1,char.length(rtrim(ID))-1). 
aggregate out=* mode=add /break=ShortID/occurrences=n. 

* at this point you can filter based on the number or `occurrences` or sort them. 
sort cases by occurrences (d) ShortID. 
0

最後の文字を削除した後、あなたは>データを使用してDUPを見つけるために重複ケースを特定することができます。それはこれのための有用なオプションの数として。

関連する問題