ポリA.faデータセットのPython分類

-1

私はfile.faに2つのタプルが含まれています：DNAのシーケンスとそのDNAのクラスです。ポリA.faデータセットのPython分類

このファイルをPythonで分類し、kerasライブラリで分類したいと思っています。 Pythonでデータを読み込んで前処理する最良の方法は何ですか？ファイルの形式を変更すると、読みやすく分類するのに役立ちますか？

2017-10-06 Tina

-1

FASTAファイルはTXTファイルと同様に、基本的に処理することができる。

seqs = [] 

# Load in the fasta, line by line 
with open('fasta_file.fa') as infile: 
    for line in infile: 
     seqs.append(line.strip()) 

# Merge the lines/first line is title typically, starting with > 
dna_seq = {} 
dna_seq[seqs.pop(0).strip('>')] = ''.join(seqs)

出典

2017-10-06 20:08:13

A、C、T、Gとなるように、おそらく、ワンホットエンコードを各配列の各塩基をしたい[1 、[0,0,0]、[0,1,0,0]、[0,0,1,0]、[0,0,0,1]である。したがって、入力インスタンスは、基数の4倍の数のベクトルであり、4つの数値のうち1つだけが非ゼロです。

回答に使用するクラスは、ワンホットエンコードされている可能性があります。シーケンス内の塩基の位置が重要なので、たぶん畳み込みニューラルネットワークで最良の結果が得られます。

出典

2017-10-06 22:51:30 JMB

ポリA.faデータセットのPython分類

答えて

関連する問題