OK、これは私が何をしたいです:複数シーケンスアラインメント(最長共通部分シーケンス)?
以上の2つの文字列を取得し、それらを「合わせる」(無DNA/RNA配列またはそれらの各1000個のアイテムのようではないとのような、普通の文字列)
私は既にペアワイズアラインメント(2つのストリングのアライメント)を行ってきましたが、2つ以上のペアをアライメントしようとすると「ギャップ」が私にいくつかの問題を引き起こします。
例(1私は現在テストしています):
ABCDEF
ABGHCEEF
AJKLBCDYEOF
AB--CDEF
ABGHCEEF
=======================
AB--C-EF
A-B--C--E-F
AJKLBCDYEOF
=======================
A----C--E-F
、別の(より説明)例:私は現在やっている何を
http://nest.drkameleon.com
http://www.google.com
http://www.yahoo.com
http://nest.drkameleon.com
http://-www.--google--.com
=======================
http://----.------le--.com
http://----.------le--.com
http://-www.-----yahoo.com
=======================
http://----.----------.com
:
- 文字列(長い文字列がリストの最初に来る)
- が最初のペア揃える並び替え:ABをして結果を得る次に第二の対合わせ
- (のは
R1
を言わせて):R1
とC
(R2
の結果を)R2
とD
- のように...
だからあなたの心の中で何:
私はむしろPerl/Pythonやこれらの行に沿って何かをしたいと思いますが、どのような種類のコード/リファレンスも歓迎すべきものです! :-)
おそらく入力と出力の例をいくつか投稿できますか?私はあなたが実際にやりたいことに100%ではありません。 –
も、PythonのLCS問題を詳細に説明するこの記事を見てください。 http://wordaligned.org/articles/longest-common-subsequence#toc21 – luke14free
@リチウムaungYipは、ここで私が何を意味するかです:http://stackoverflow.com/questions/10065293/how-to-align-2-strings –