私はDNA配列と配列の名前を持つFASTAファイルを持っており、重複スコアのマトリックスを作る必要があります。 Biopythonでモジュールpairwise2
が見つかりましたが、これはかなりうまくいくようです。私の配列は既に整列されていることを除いて、pairwise2
を使用すると、それは非常に長くかかる配列を再び整列させようとし、各整列について同じ重複スコアを明らかに得ます。だから私の質問は、シーケンスを再調整しようとせずにオーバーラップスコアを取得する方法です。ここ は、私がこれまで持っているものです。重複スコアマトリックスbiopython
from Bio.Alphabet import IUPAC
from Bio import SeqIO
from Bio import pairwise2
fasta_file = SeqIO.parse('unambiguous.fasta', 'fasta', alphabet=IUPAC.ambiguous_dna)
all_seq = []
for seq_record in fasta_file:
all_seq += [str(seq_record.seq)]
compare = pairwise2.align.globalms(all_seq[0], all_seq[1], 2, -1, -1, 0)
print(compare)
私はここにトライアウトとしてFASTAファイルからのみ第一および第二の配列を使用しました。あなたがスクリプトで見ることができるように、マッチは2ポイント、ミスマッチとギャップ-1に報酬を与えるべきです。両方の配列が同じ位置にギャップを持つ場合、0は報酬でなければなりません。私は4位に0を入れても望みの結果は得られませんが、まだその問題の解決策はありません。この時点でアライメントの問題が大きくなっているようです。 pairwise2や他のpython/biopythonモジュールの経験がある人なら、重複スコアを得ることができますか?
'unambiguous.fasta'に整列した配列が含まれていることを意味しますか? –
あなたの質問を編集して、あなたの問題を示す例入力を含めてください。 – MattDMo