私は、 "12122"というヘッダーとそれに続く文字列を含むfastaと呼ばれるタイルタイプを持っています。私は、ファイル内の重複した文字列を削除し、重複した文字列(同じもの)と対応するヘッダの1つだけを残したいと思います。 AGGTTCCGGATAAGTAAGAGCC以下の例で
はでユニークな線をフィルターする
を重複して:
>17-46151
AGGTTCCGGATAAGTAAGAGCC
>1-242
AGGTTCCGGATAAGTAAGAGCC
>18-41148
TCTTAACCCGGACCAGAAACTA
>43-16054
GTCCCACTCCGTAGATCTGTTC
>32-24116
TAGCATATCGAGCCTGAGAACA
>42-16312
TGATACGGATGTTATACGCAGC
アウト:
>1-242
AGGTTCCGGATAAGTAAGAGCC
>18-41148
TCTTAACCCGGACCAGAAACTA
>43-16054
GTCCCACTCCGTAGATCTGTTC
>32-24116
TAGCATATCGAGCCTGAGAACA
>42-16312
TGATACGGATGTTATACGCAGC
なぜあなたは18-41148' '続けるのですか?それは重複していないようだ –
申し訳ありませんが、私はユニークな文字列を保持したいと思います。もし複製されていれば複製物の1つを残しておきたい – user2300940
あなたはexamplにPerlのハッシュを使ってみることができます: 'perl -nE 'chomp; chomp($ seq = <>); $ seqs {$ seq} = $ _; END {for(keys%seqs){say; $ seqs {$ _}}} 'in.txt' –