私は遺伝子サインを作成しようとしています。私はDNA配列の完全なテキストファイルを持っています。私はテキストファイルから各行を読みたい。次に、4塩基である4merを辞書に加える。たとえば :サンプルシーケンスPythonを使用してテキストファイルの行にスプライシング
ATGATATATCTATCAT 4mersを添加しながら、ちょうど1インクリメントID年代と辞書に... ATGA、TGAT、GATA、などである私が追加したい
。
ので辞書が開催されます...ここで
Genetic signatures, ID
ATGA,1
TGAT, 2
GATA,3
は、私がこれまでに...ここで
import sys
def main():
readingFile = open("signatures.txt", "r")
my_DNA=""
DNAseq = {} #creates dictionary
for char in readingFile:
my_DNA = my_DNA+char
for char in my_DNA:
index = 0
DnaID=1
seq = my_DNA[index:index+4]
if (DNAseq.has_key(seq)): #checks if the key is in the dictionary
index= index +1
else :
DNAseq[seq] = DnaID
index = index+1
DnaID= DnaID+1
readingFile.close()
if __name__ == '__main__':
main()
は私出力されたものです:
ACTC
ACTC
ACTC
ACTC
ACTC
ACTC
この出力それは文字列の各文字を反復していないことを示唆しています...助けてください!
Muchas gracias!ありがとうたくさんのロック! – brooklynchick