私は20000プローブのリストを持っていますが、sed/awkを使用して各プローブの最初の3行/Sed/Awkを使用して、最初の3つの固有のインスタンスを抽出します
Example of dataset:
Probe1 A GTTAGAGGAGGTGGAAGAGC
Probe1 B CTGAGGTCGGGACGGAGCAC
Probe1 C GATGTAGGCGGTTGGCGTGG
Probe1 D GTTGGCGAAGTCACATCTAG
Probe1 E CATGTCGCCGACTCCGTCGA
Probe1 F GTGATGTTCTGAGTACATAG
Probe3 A GATTGTAGGTTTCCTGCCAG
Probe3 L ACCCAGCCAGGGGAAAACCA
Probe3 Z GGAGATGTAGGCGGTTGGCG
Probe3 Y GGAGATGTAGGCCTTAAAAA
Probe3 D GATTGTAGGGGTCCTGCCAG
所望の出力:
Probe1 A GTTAGAGGAGGTGGAAGAGC
Probe1 B CTGAGGTCGGGACGGAGCAC
Probe1 C GATGTAGGCGGTTGGCGTGG
Probe3 A GATTGTAGGTTTCCTGCCAG
Probe3 L ACCCAGCCAGGGGAAAACCA
Probe3 Z GGAGATGTAGGCGGTTGGCG
だから、シンプルかつエレガントな働いた、ありがとうございます。ありがとうございました。ただ一つのこと:あなたは++の部分を説明してもらえますか? – Bio21
ニース。 '++ a [$ 1]'は最初のフィールドの一意の値に関連する値を増加させます。 4未満のときはラインが印刷されます。 – dawg