これは簡単なことですが、私は非常に限られたバイオインフォマティクス経験を持っています。複数のFastaアラインメントファイルの注文方法
私は同じ12種の異なる遺伝子のアライメントを含む多くの-100,000-FASTAファイルを持っています。各ファイルには、次のようなものになります。同じように命じている
>dmel
ACTTTTGATACAATTAAC
>dsim
AATCCCAGACAAATTAAG
>dsec
AGTTTTGCAATGGTAAAT
>dere
TGGAATATTAGACGAATT
...
ないファイルのすべてを、私はそれらすべてのようにしたいと思います。アルファベット順に並べ替えることができれば簡単ですが、すべてのファイルが同じように並べ替えられている限り、どのように並べられても問題ありません。アルファベット順は次のようにする必要があります。
>dere
TGGAATATTAGACGAATT
>dmel
ACTTTTGATACAATTAAC
>dsec
AGTTTTGCAATGGTAAAT
>dsim
AATCCCAGACAAATTAAG
...
これを自動的に行うスクリプトは大変ありがたいです。
編集:問題のあるsedを使用しているシェルスクリプトを使用しています。これは、ファイルの数がそれほど大きくない場合に機能しますが、この特定のケースでは異なる名前の重複ファイルが作成されます。スクリプトが読み:
#!/bin/bash
echo
for i in {0..114172}; do
#sed -e '$ d' bloque.fasta.trim$i >b0.fasta.trim
#sed -e 's/ /ñ/g' <b0.fasta.trim >b1.fasta.trim
sed -e 's/ /ñ/g' <bloque.fasta.trim$i >b1.fasta.trim
tr "\n" " " <b1.fasta.trim >b2.fasta.trim
sed -e 's/ //g' <b2.fasta.trim>b3.fasta.trim
sed -e 's/>/\n>/g' <b3.fasta.trim>b4.fasta.trim
sed '1d' b4.fasta.trim >b5.fasta.trim
sort b5.fasta.trim >b6.fasta.trim
sed -e 's/ñ/\n/g' <b6.fasta.trim>b7.fasta.trim$i
done
非命じたファイルがbloque.fasta.trimと呼ばれ、このスクリプトは1つのB7を作成する必要がありb7.fasta.trim $と呼ばれるファイルの束を作成します。各bloqueのファイル。ファイル。問題は、ファイルを複製して別の名前を付けることがあることです。私は重複の間違いを起こさない、より簡単なアプローチが最も確実だろう。
BioStarまたはSEQanswersを試してください。スタックオーバーフローの解決策が必要な場合は、プログラミング言語を記述し、コーディングの試みを示す必要があります。 –
OK、私の投稿を編集して、うまく機能するsedスクリプトを表示しました。 – NKGon