2017-10-06 10 views
-1

私はfile.faに2つのタプルが含まれています:DNAのシーケンスとそのDNAのクラスです。ポリA.faデータセットのPython分類

このファイルをPythonで分類し、kerasライブラリで分類したいと思っています。 Pythonでデータを読み込んで前処理する最良の方法は何ですか?ファイルの形式を変更すると、読みやすく分類するのに役立ちますか?

答えて

-1

FASTAファイルはTXTファイルと同様に、基本的に処理することができる。

seqs = [] 

# Load in the fasta, line by line 
with open('fasta_file.fa') as infile: 
    for line in infile: 
     seqs.append(line.strip()) 

# Merge the lines/first line is title typically, starting with > 
dna_seq = {} 
dna_seq[seqs.pop(0).strip('>')] = ''.join(seqs) 
0

A、C、T、Gとなるように、おそらく、ワンホットエンコードを各配列の各塩基をしたい[1 、[0,0,0]、[0,1,0,0]、[0,0,1,0]、[0,0,0,1]である。したがって、入力インスタンスは、基数の4倍の数のベクトルであり、4つの数値のうち1つだけが非ゼロです。

回答に使用するクラスは、ワンホットエンコードされている可能性があります。シーケンス内の塩基の位置が重要なので、たぶん畳み込みニューラルネットワークで最良の結果が得られます。

関連する問題