2012-01-28 6 views
0

OK、私は整列して隣接するツリーを作るために興味のあるタンパク質(699個の配列)の数百の断片を持っています。これらのフラグメントは、多くの場合、互いに良好に整列しない(同一または類似のタンパク質の異なる領域)。しかし、全タンパク質配列が定義され、NCBIおよび他のデータベースなどに提出されている。また、これらのタンパク質のための文献で作られた樹木も存在する。私の断片をメタゲノムから取り出し、それを既知の配列に整列させて、それぞれの断片が公開された木のどこにあるのかを定義する方法はありますか? 私の唯一の解決策は、各断片が存在する場所を定義するために(出版物からの元の全タンパク質配列を使用して)予め定義されたツリー上の各配列(または配列のクラスタ)を実行することです。これを行う簡単な方法はありますか?同じタンパク質のフラグメントの系統樹(メタゲノムから)

+0

おそらく、このサポートする必要があります:ここで私はそれがアラインメントおよび系統樹を作る書いたPerlスクリプトですhttp://area51.stackexchange.com/proposals/6729/bioinformaticsは、その間はhttp://scicomp.stackexchange.com/でヘルプを見つけることができます。 – Marcin

+0

おそらく、この質問をするより良い場所は次のとおりです。http://biostar.stackexchange.com/ – PhiS

答えて

0

よく整列ツールClustalは整列を行い、適切なフラグを立ててツリーを作ることもできます。最大のメタゲノムを含む、すべてのシーケンスを含むfastaファイルを作成すると、私はそれを信じています。アライメントスコアに基づいて系統樹を自動的に生成させることができます。これがあなたが望むものすべてを達成するかどうかは不明ですが、それはスタートです。いくつかの.fastaファイルを作成して、インテリジェントな設計と事前知識を使用して調整して、望ましい結果を得る必要があるかもしれません。

#!/usr/bin/perl 


use warnings; 

print "Please type the list file name of protein fasta files to align (end the directory path with a/or this will fail!): "; 
$directory = <STDIN>; 
chomp $directory; 

opendir (DIR,$directory) or die $!; 

my @file = readdir DIR; 
closedir DIR; 

my $add="_align.fasta"; 

foreach $file (@file) { 
my $infile = "$directory$file"; 
(my $fileprefix = $infile) =~ s/\.[^.]+$//; 
my $outfile="$fileprefix$add"; 
system "/Users/Wes/Desktop/eggNOG_files/clustalw-2.1-macosx/clustalw2 -INFILE=$infile -OUTFILE=$outfile -OUTPUT=FASTA -tree"; 
} 
関連する問題