これは、シーケンスの先頭または最後にあることを考慮して、fasta(アライメント)ファイルでchar(n)の繰り返しを数える方法を見つけようとします。シーケンス内の文字を無視する。fasta(アライメント)ファイルの文字数をカウントする
例:
入力:
>chromosome1
============
nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
TGTGAAGATGCTGGAGGAAACAGGTAnnCAAAAGTATCTATATCCACAGTAAAACAAGTCCTATATTGACAT
CCTGAAAGGCCTCTCAGCAAGGAAGAAGCCACTGCTCCAAAACCGCCAnnnTAAAAAAGCCAGACTACGGTT
nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn.
出力
71
74
この時点で私は
awk '{print gsub (srch,srch)}' srch="n"
とシーケンス全体にどのように多くの文字(n)をカウントすることができます
しかし、私はIDが必要ですea(コード)を使用して、大ブロックの前後の2つのグループを区別します。
[編集]あなたの質問あなたの投稿をサンプル入力与えられた期待される出力を含めます。 –