2017-01-12 2 views
0

私はcountry1とcountry2とidの列を持っています。私の国の分野では、いくつかの値は以下のように似ています。同じ文字の少なくともの2つの連続したを持つ類似の値を除外するにはどうすればよいですか?PIGで私の豚のスクリプトで同様の値を取り除く方法

例:

a = load file 
a = generate id, country1, country2 

出力:

id1, us, usa 
id2, gb, gba 
id3, in, ind 
id4, in, usa 

expected output: 
id4, in, usa 
+0

あなたの質問は不明です。 4行を1行に減らしたいですか?ありがとう@inquisitive_mind! –

答えて

1

使用SUBSTRING 3列の最初の2つの文字を取得し、第二列の値とそれを比較します。

B = FILTER A BY (LOWER(A.$1) != SUBSTRING(LOWER(A.$2),0,2)); 
DUMP B; 
+0

!あなたは祝福です – Tai

関連する問題