大きな配列(F)内で発生する小さなDNA配列(R)の数を検索してカウントしようとしていますが、Rには数文字変数。私が考えることができる最も簡単な方法は、Rの比率を設定し、Fの80%を超えるすべてのヒットをカウントすることですが、これを行うようなコマンド(difflibのSequenceMatcherやget_close_matchesなど)は動作するリストが必要です。私はそのようなリストにFを入れることはできません。何か案は?より大きなDNA配列内のファジー配列の出現をカウントする
EDIT 2:さらに詳しい情報が必要です。
DNA断片(F)には、設定されたリピート数(R)が存在する。 Fは353文字、1回の繰り返しは15文字です。 Rは重複しないほど明確であるため、重複は起こらない。問題は、Rが可変であり、15文字のうち2文字が変わるか同じままであることである。私はこれらのバリエーションや今後発生する可能性のあるバリエーションを検出できる必要があります。
re.findall(pattern = "CTGCTTGGCGGG[TC]T[CG]", string = fragment)
働くことができない:私は、変数の文字も同様に正規表現を使用するので、どちらかの同じ位置に配置することはできませんR.におけるこれらの変動の完全な独立したデータベースを避けるためにしようとしています。
difflib.get_close_matches(repeat, fragment, cutoff = 0.85)
繰り返しがCTGCTTGGCGGGTTC
だろうとDNA断片がAAAATTGCGGCATGTGGGCTGACTCTGAAAGCGATGCTCACGAAAAGGGAACGCGGCGCCGTCGGGCGCCGCGCGCCGCTTAGGACTGCTGGCCTGCGGCCGGCGCCTGCTTGGCGGGTTCCTGCTTGGCGGGCTCCTGCTTGGCGGGTTCCTGCTTGGCGGGTTCCTGCTTGGCGGGTTCCTGCTTGGCGGGCTGCTGCTTGGCGGGCTGCTGGGCCGGCGCCTGCTGGCCAGGAGCGGGCTGCTGGCCGGCAGGCGCCGCGCCCCCCTTGTTCCAGGGCGAAGCCTGCACCGGCGCCCCCGGACGGATCTTCTGGAAGCCTTCGACCACCACCACGTCTCCCGCCGCCAGG
を次のようになります。また、ここdifflibを通してそれをしようとしたとき、私が使っていたものです。
反復すると、RはDNA断片中で複数回繰り返されることを意味する。
ありがとうございました。
それは、あなたがしたいことは完全には明確ではありません。例を挙げてください。さらに、重複カウントなどを指定するのが良いでしょう。 –
あなたは 'R'と' F'の例を貼り付けて、あなたが繰り返しとして定義するものをさらに説明できますか? – mitoRibo
多分あなたはこれを見ることができます:http://biopython.org/DIST/docs/api/Bio.motifs-module.html – bli