Sed/Awkを使用して、最初の3つの固有のインスタンスを抽出します

私は20000プローブのリストを持っていますが、sed/awkを使用して各プローブの最初の3行/Sed/Awkを使用して、最初の3つの固有のインスタンスを抽出します

Example of dataset: 
    Probe1 A GTTAGAGGAGGTGGAAGAGC 
    Probe1 B CTGAGGTCGGGACGGAGCAC 
    Probe1 C GATGTAGGCGGTTGGCGTGG 
    Probe1 D GTTGGCGAAGTCACATCTAG 
    Probe1 E CATGTCGCCGACTCCGTCGA 
    Probe1 F GTGATGTTCTGAGTACATAG 

    Probe3 A GATTGTAGGTTTCCTGCCAG 
    Probe3 L ACCCAGCCAGGGGAAAACCA 
    Probe3 Z GGAGATGTAGGCGGTTGGCG 
    Probe3 Y GGAGATGTAGGCCTTAAAAA 
    Probe3 D GATTGTAGGGGTCCTGCCAG

所望の出力：

Probe1 A GTTAGAGGAGGTGGAAGAGC 
Probe1 B CTGAGGTCGGGACGGAGCAC 
Probe1 C GATGTAGGCGGTTGGCGTGG 
Probe3 A GATTGTAGGTTTCCTGCCAG 
Probe3 L ACCCAGCCAGGGGAAAACCA 
Probe3 Z GGAGATGTAGGCGGTTGGCG

出典

2016-11-27 Bio21

awkを救出します！空行

$ awk '++a[$1]<4 && NF' file

出典

2016-11-28 00:05:49 karakfa

だから、シンプルかつエレガントな働いた、ありがとうございます。ありがとうございました。ただ一つのこと：あなたは++の部分を説明してもらえますか？ – Bio21

ニース。 '++ a [$ 1]'は最初のフィールドの一意の値に関連する値を増加させます。 4未満のときはラインが印刷されます。 – dawg

（あなたは、Pythonを使用したい場合）、ここでのsedやawkのを使用する必要はありません。私はあなたの質問を誤解していない限り、これはそれを行う必要があります。

probes = [ 
"""Probe1 A GTTAGAGGAGGTGGAAGAGC 
Probe1 B CTGAGGTCGGGACGGAGCAC 
Probe1 C GATGTAGGCGGTTGGCGTGG 
Probe1 D GTTGGCGAAGTCACATCTAG 
Probe1 E CATGTCGCCGACTCCGTCGA 
Probe1 F GTGATGTTCTGAGTACATAG""", 
"""Probe3 A GATTGTAGGTTTCCTGCCAG 
Probe3 L ACCCAGCCAGGGGAAAACCA 
Probe3 Z GGAGATGTAGGCGGTTGGCG 
Probe3 Y GGAGATGTAGGCCTTAAAAA 
Probe3 D GATTGTAGGGGTCCTGCCAG"""] 

for probe in probes: 
    for i, line in enumerate(probe.split("\n")): 
     print(line) 
     if i >= 2: 
      break

出典

2016-11-28 00:03:59

を削除する

$ awk '++a[$1]<4' file

は、両方のオプションが完全 – Bio21

Sed/Awkを使用して、最初の3つの固有のインスタンスを抽出します

答えて

関連する問題