私はこの小さな例のようなファイルを持っている:テキストファイルに変なファイルを解析する
小さな例:
>ENSG00000003249|ENST00000002501|DBNDD1|2079
GCCGCGGCCCCCCGGTTGCTGCCCCGATGCGCTGCGCCCGGAGCCGGGGCCGAGTCGCTG
CCGCAGCTGTTGGGGCGCCCGGGCCAGGCGACGCCGCCGTCGCCCGTGCCCCTCCCAGAC
CGCACCGGCCGC
>ENSG00000048028|ENST00000003302|USP28|4669
AGTCCTGAGAGGCTGGGCCGGCGGCGGCTGCGGCGGGAGACCGGTGACCCGCGGCTGGGC
GCCTCGGCC
">"
で開始された最初の行は"|"
とで区切られた4部を持っています次の行は、">"
で始まる行に関連する一連の文字です。 このファイルを5列のテキストファイルに解析します。最初の4列は">"
で始まる最初の行にあり、5行目はシーケンスです。例えば が、結果は次のようになり、最後のシーケンスFOE:
ENSG00000048028 ENST00000003302 USP28 4669 AGTCCTGAGAGGCTGGGCCGGCGGCGGCTGCGGCGGGAGACCGGTGACCCGCGGCTGGGCGCCTCGGCC
を私はこのコードをしたが、うまくいきませんでした:
list = []
with open(inputfile) as f:
for line in f:
if line.startswith('>'):
parts = line.split('|')
else:
parts = sequence
list.append(parts)
infile = open('test.txt', 'w')
for item in list:
infile.write("%s\n" % item)
これは、[FASTAファイル形式](http://bioperl.org/formats/ですsequence_formats/FASTA_sequence_format)、DNA情報を含んでいます。 ['BioPy.SeqIO()'](http://biopython.org/wiki/SeqIO)を使うか、手動で解析することができます。 –
なぜ私はテキスト形式を別のものに変換したいのか不思議です。このデータをあなたが書いていない別のプログラムに供給しようとしていますか? – qxz
上記のテキストを空白で区切られた2行の部分文字列に再フォーマットしますか? – RomanPerekhrest