私は複数の列を持つcsvファイルを持っています。いくつかは4列目(col4)に重複している可能性があります。Unix削除2列に基づいてcsvから重複行
重複が発生する行全体を削除し、1行だけを保持する必要があります。この列の決定は、col1から最大値を得ることによって行われます。以下
例である:重複を行1とROW2及びROW3に見出される
col1,col2,col3,col4
1,x,a,123
2,y,b,123
3,y,b,123
1,z ,c,999
、唯一の第3段目は、理由COL1(ROW3)> COL1(ROW2)> COL1(ROW1)に維持されるべきです。今、このコードは、col1のを見ずにCOL4で重複を削除するために
awk '!seen[$4]++' myfile.csv
私は、各重複のCOL1をチェックし、COL1で最も低い値を持つものを削除して行を保つために条件を追加したいと思います最高値のn
col1の出力は次のようになります。
COL1、COL2、COL3、COL4
3,y,b,123
1,z,c,999
ありがとうございました!
いいえ、これは明らかではない、すべてがここに助けることができるようにあなたは、ポストにINPUT_FILE ANS期待される出力をより多くの情報を入れて、サンプリングしてくださいでした。 – RavinderSingh13
入出力の例がありますので注意して読んでください。 –