2016-12-05 18 views
0

DNAシーケンスデータを使って種を同定するために、WeiveのNaive BayesやSVMなどの機械学習技術を使いたいと思います。 問題は、DNA配列を数値ベクトルに変換する必要があることです。DNA配列をR/Wekaの数値ベクトルに変換する

MYシーケンスは次のとおりです。

------------------------------------ ------------ G ------------------------------------ ------ GGAGATG ------------------------------------------ GGAGATG ------------------------------------------ GGAGATG TTATTAATTCGAGCAGAATTAGGAAATCCTGGATCTTTAATTGGTGATG - -------------------------------------------- ATG CTATTAATTCGAGCTGAGCTAAGCCAGCCCGGGGCTCTGCTCGGAGATG - --------------------- TCAACCTGGGGCCCTACTCGGAGACG ---- TAATCCGAGCAGAATTAAGCCAACCTGGCGCCCTACTAGGGGATG CTATTAATTCGAGCTGAGCTAAGCCAGCCTGGGGCTCTGCTCGGAGATG TTATTAATTCGTTTTGAGTTAGGCACTGTTGGAGTTTTATTAG ---私はこれを行うことができますどのようにATA

? Weka以外のDNA配列でMLを行うための他のプログラムの提案はありますか?

答えて

0

この答えは、あなたがこのためにRのBiostringsパッケージを使用することができR.

を使用しています。

最初のパッケージをインストールします。

source("http://www.bioconductor.org/biocLite.R") 
biocLite(c("Biostrings")) 

変換文字列をDNAstringに:また

dna1 <- DNAString("------------------------------------------------G------------------------------------------GGAGATG") 

dna2 <- DNAStringSet(c("ACGT", "GTCA", "GCTA")) 


alphabetFrequency(dna1) 
letterFrequency(dna1, "GC") 
.... 

を次に(あなたがしなければならない場合)あなたはRからウェカ関数を呼び出すことができます、例えばNaive BayesをNB <- make_Weka_classifier("weka/classifiers/bayes/NaiveBayes") ; NB(colx ~ . , data=mydata)と置き換えたり、望むようにデータを変換したり、Weikaが理解できる他のタイプのファイルにエクスポートすることができます。 foreign::write.arff()の機能が気になります。しかし私はWekaをこれに使用しません。

言うまでもなく、これらの配列をwebsite performing a BLAST searchに入力し、種候補を取得するだけで簡単に入力できます。

CTATTAATTCGAGCTGAGCTAAGCCAGCCCGGGGCTCTGCTCGGAGATGの場合、91%の確率で「バンドドロックトカゲ」(Petrosaurus mearnsi)からミトコンドリアDNAが得られます。

関連する問題