2011-08-01 4 views
0

fastaファイルからbase pairsを取り除く必要があります。これは私の入力ファイルの例です塩基対を削除する

>\>NODE_1 
GTTGGCCGAGCCCCAGGACGCGTGGTTGTTGAACCAGATCAGGTCCGGGCTCCACTGCAC 
GTAGTCCTCGTTGGACAGCAGCGGGGCGTACGAGGCCAGCTTGACCACGTCGGCGTTGCG 
CTCGAGGCCGGTCATGAACGCGGCCTCGGCGAGGGCGTTCTTCCAGGCGTTGCCCT 
\>NODE_2 
GTTGGCCGAGCCCCAGGACGCGTGGTTGTTGAACCAGATCAGGTCCGGGCTCCACTGCAC 
GTAGTCCTCGTTGGACAGCAGCGGGGCGTACGAGGCCAGCTTGACCACGTCGGCGTTGCG 
CTCGAGGCCGGTCATGAACGCGGCCTCGGCGA 

と私は20種類のノードをファイルに持っています。私の目的は、私は私がこれを進めることができますどのようにあなたは私を導くことができる

x<-readLines("input file.fa", n = -1L, ok = TRUE, warn = TRUE) 

R.

内のファイルを読むことだけができるよ、今この

>\>NODE_1 
GTTGGCCGAGCCCCAGGACGCGTGGTTGTTGAACCAGATCAGGTCCGGGCTCCACTGCAC 
GTAGTCCTCGTTGGACAGCAGCGGGGCGT 
\>NODE_2 
GTTGGCCGAGCCCCAGGACGCGTGGTTGTTGAACCAGATCAGGTCCGGGCTCCACTGCAC 
GTAGTCCTCGTTGGACAGC 

のようなファイルを短くするのですか?

+0

塩基対を削除することは何を意味しますか?私は遺伝学を研究していません... –

+0

生物学の背景を持たない人々のために、塩基対が何であるかを明確にすべきだと思います。 –

+0

私は長い間リンクを追加しましたが、人々の手助けをしやすくするために質問を明確にしてください。 –

答えて

4

ベースRソリューションの場合はsubstrを使用してください。しかし、BioconductorのBiostrings '機能を使用することがより良いアイデアです。すなわち、

readFASTA("input.fa")->x 
shortX<-subseq(x,start=1,width=100) 
writeFASTA(shortX,"output.fa") 
関連する問題