は、私はこのような、あまりにも多くの行があります。ろ過
>ENSG00000100206|ENST00000216024|DMC1|2371|38568257;38570043|38568289;38570286
CTCAGACGTCGGGCCGACGCAAGGCCACGCGCGCGAACACACAGGTGCGGCCCCGGGCCA
CACGCACACCGTACAC
>ENSG00000001630|ENST00000003100|CYP51A1|3210|92134365|92134530
TATATCACAGTTTCTTTCTTTTTTTTTTTTTTTTTTTTGAGACAGAGTTTTGCTCTTGTT
GCCCAGGCTGGAGTACAGTGACGCAATCTCGGCTCACTGCAACCTTTGCCTCCCAGGTTC
>ENSG00000100206|ENST00000216024|DMC1|2371|38568257;38570043|38568289;38570286
TTAACTATAATCCCACTGCCTATTTTTTTATTTCTAAAAATATCATAAAAAGACACAAAA
を(>
で始まる)最初の行は識別子であり、他のラインはシーケンスであり、また、各識別子は独自の配列を有しています。上記の例では、ENSG00000100206
は名前であり、ENST00000216024
はisoformです。私のファイルには同じ名前の識別子行がいくつかありますが、それ以外はすべて異なります。 それぞれの名前の最長シーケンスを取得して新しいファイルを作成したいと思います。つまり、各名前の繰り返しは1つだけです(ただし、シーケンスが最も長くなります)。 上記の例のための結果は次のようになります:
>ENSG00000100206|ENST00000216024|DMC1|2371|38568257;38570043|38568289;38570286
CTCAGACGTCGGGCCGACGCAAGGCCACGCGCGCGAACACACAGGTGCGGCCCCGGGCCA
CACGCACACCGTACAC
>ENSG00000001630|ENST00000003100|CYP51A1|3210|92134365|92134530
TATATCACAGTTTCTTTCTTTTTTTTTTTTTTTTTTTTGAGACAGAGTTTTGCTCTTGTT
GCCCAGGCTGGAGTACAGTGACGCAATCTCGGCTCACTGCAACCTTTGCCTCCCAGGTTC
は、あなたたちはPythonでそれを行う方法を知っていますか?
これらの行のすべてを繰り返し処理するコードから始めます。 –
コード作成サービスではありません。これまでに試したことを提示することで、少なくともいくらかの努力をしなければなりません。 –
@matias elgart:いいえ、しないでください。何百万もの書かれたものが存在するときにあなた自身のパーサーを書く必要はありません。 – JulienD