私はfile.faに2つのタプルが含まれています:DNAのシーケンスとそのDNAのクラスです。ポリA.faデータセットのPython分類
このファイルをPythonで分類し、kerasライブラリで分類したいと思っています。 Pythonでデータを読み込んで前処理する最良の方法は何ですか?ファイルの形式を変更すると、読みやすく分類するのに役立ちますか?
私はfile.faに2つのタプルが含まれています:DNAのシーケンスとそのDNAのクラスです。ポリA.faデータセットのPython分類
このファイルをPythonで分類し、kerasライブラリで分類したいと思っています。 Pythonでデータを読み込んで前処理する最良の方法は何ですか?ファイルの形式を変更すると、読みやすく分類するのに役立ちますか?
FASTAファイルはTXTファイルと同様に、基本的に処理することができる。
seqs = []
# Load in the fasta, line by line
with open('fasta_file.fa') as infile:
for line in infile:
seqs.append(line.strip())
# Merge the lines/first line is title typically, starting with >
dna_seq = {}
dna_seq[seqs.pop(0).strip('>')] = ''.join(seqs)
A、C、T、Gとなるように、おそらく、ワンホットエンコードを各配列の各塩基をしたい[1 、[0,0,0]、[0,1,0,0]、[0,0,1,0]、[0,0,0,1]である。したがって、入力インスタンスは、基数の4倍の数のベクトルであり、4つの数値のうち1つだけが非ゼロです。
回答に使用するクラスは、ワンホットエンコードされている可能性があります。シーケンス内の塩基の位置が重要なので、たぶん畳み込みニューラルネットワークで最良の結果が得られます。