fasta

    0

    2答えて

    私は2つのファイルを持っています。 1つはfastaファイルで、複数のfastaシーケンスが含まれていますが、別のファイルには検索したい候補シーケンスの名前が含まれています(下記のファイルの例)。 seq.fasta >Clone_18 GTTACGGGGGACACATTTTCCCTTCCAATGCTGCTTTCAGTGATAAATTGAGCATGATGGATGCTGATAATATCATTCCC

    0

    1答えて

    マルチファイアファイル内の個々の配列の長さを求めたい。 >Protein1 MNT >Protein2 TSMN >Protein3 TTQRT とコード利回り: from Bio import SeqIO import sys cmdargs = str(sys.argv) for seq_record in SeqIO.parse(str(sys.argv[1]), "fa

    0

    1答えて

    私はFASTQファイルを持っており、ファイルを分析するためにFASTQCプログラムを実行することができます。 trim_galoreを使用すると、FASTQC(またはtrim_galoreのFASTQCオプション)はもう機能しません。 $ fastqc ./sub1_val_1.fq.gz これが出力されます。バージョンはtrim_galoreとFastQCの間で正しくないため Started

    -2

    3答えて

    これは、シーケンスの先頭または最後にあることを考慮して、fasta(アライメント)ファイルでchar(n)の繰り返しを数える方法を見つけようとします。シーケンス内の文字を無視する。 例: 入力: >chromosome1 ============ nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn T

    0

    1答えて

    swiss-port(ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz)のfastaファイルを使用しています。「>」で始まる行には、次のものにあるタンパク質の情報があります。酸配列。 遺伝子名(xの遺伝子名である "GN=xxxxxxx"

    3

    2答えて

    私はテストここのようなFASTAファイルを持っている:私の好きなシンプルなgrepコマンドを入力すると >HWI-D00196:168:C66U5ANXX:3:1106:16404:19663 1:N:0:GCCAAT CCTAGCACCATGATTTAATGTTTCTTTTGTACGTTCTTTCTTTGGAAACTGCACTTGTTGCAACCTTGCAAGCCATATAAACACATTTC

    0

    2答えて

    各ファイルに2行のシーケンスを含むディレクトリ内のファイルを開きます。上のシーケンスは下のシーケンスよりも長いが、下のシーケンスを含む。私は、一番上のシーケンスに見つかったら、各方向に2つの隣接する文字で下のシーケンスを拡張したいと思います。私は正規表現のマッチを行うことでこれを試していますが、$ newsequence変数の初期化されていないエラーが発生しています。ここ は、一般的なファイルは次

    0

    1答えて

    この質問はあまりにも一般化されるかもしれませんが、私は完全にこれに固執しています。ヘルプの任意のタイプが認識される: Iタンパク質のFASTAファイル(protein.txt)等を有する: >a mnspq >b rstuvw >c mnqa 注、BおよびCタンパク質の長さ(それぞれ5,6及び4であること総内( 2-3 4-10 11-14 各タンパク質の長さ:全長は= 15

    0

    1答えて

    以下のような長いリストのデータ(INPUT)があります。 データを分割して、以下のような出力が得られるようにしたい(希望のOUTPUT)。 以下のコードは、 "> gi"を含むすべての行を識別し、それらの行の行数をBという配列に保存します。 次に、新しいファイルでは、配列Bの行を短縮版">"の後のテキストの "|"で分割するのが最も簡単な方法だと思ったが、これはうまくいかなかった( ""を "|"

    0

    1答えて

    私は巨大なfastaファイルを持っていますが、シーケンスの開始と終了の塩基対座標を知っていれば、その一部だけを抽出する必要があります。また、それは1行あたり60 bpの長さのfasta形式でなければなりません。これは私の試みです。もしそれが改善されたと思われるならお知らせください。 from Bio import SeqIO inFile = open('full_chr.fa','r')