Swiss-Prot Fastaファイルからインポートシーケンス

swiss-port（ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz）のfastaファイルを使用しています。「>」で始まる行には、次のものにあるタンパク質の情報があります。酸配列。Swiss-Prot Fastaファイルからインポートシーケンス

遺伝子名（xの遺伝子名である "GN=xxxxxxx"と示されている）を使用してその行を検索し、後でその列に含まれる配列をインポートする方法はありますか？

私は、行の途中で検索して次の行をコピーするためのループを作成する際に問題が発生しているので、これで苦労しています。

出典

2016-06-20 Anonymous

使用しているOSはどれですか？ –

Linuxを使用している場合は、sed、awk、およびtail/headに慣れてください。彼らはあなたに将来の多くの時間を節約します。

我々は

sed -n '/GN=FV3-002L/,/^>/p' uniprot_sprot.fasta | head -n -1

-n FV3-002L遺伝子を探していると仮定しましょう：あなたの検索用語

^>：あなたの終わりをそう

GN=FV3-002L言ったときだけ印刷するsedを指示します検索、^は、行の先頭です。> FASTAヘッダーの先頭です。

/p：試合に

| head -n -1を印刷するようにsedを伝えます：Pythonの使用

（より良い正規表現を見つけることがあまりにも怠惰な、しかし、あなたのアイデアを得る）のは、最後の行を取り除くみましょう：

gene = 'FV3-002L' 
gene_found = False 
fasta = '' 
with open('uniprot_sprot.fasta') as f: 
    for line in f: 
     if gene in line: 
      gene_found = True 
      fasta += line 
     elif gene_found and line.startswith('>'): 
      break 
     elif gene_found: 
      fasta += line 

print(fasta)

ユニスクリプトファイルを開き、各行を読み込み、遺伝子名が見つかったかどうかを確認し、存在する場合は、次のヘッダーまですべての行を読み取り、最後にFASTAシーケンスを出力します。

注：これらのスニペットは1つの例で機能しますが、複数の遺伝子にも適用できます。これを日常的に実行したい場合は、データを効率的に処理する方法を検討する価値があります。生物学的データの操作については、BioPythonもご覧ください。

出典

2016-06-22 22:03:38

Swiss-Prot Fastaファイルからインポートシーケンス

答えて

関連する問題