1
異なるゲノム領域を持つファイルをソートしようとしていますが、各領域には数字の組み合わせである&があります。ファイルをソートして別のファイルに配置する
ゲノムの位置がそれぞれ(columns1,2,3)
であり、3つが同じ場合は、 とし、それを新しい別のファイルに抽出します。
私の入力は次のとおりです。
1.txt
chr1 10 20 . . 00000 ACTGBACA
chr1 10 20 . + 11111 AACCCCHQ
chr1 18 40 . . 0 AA12KCCHQ
chr7 22 23 . . 21 KLJMWQKD
chr7 22 23 . . 8 XJKFIRHFBF24
chrX 199 201 . . KK AVJI24
私は期待してい何かがある:
chr1.10-20.txt
chr1 10 20 ACTGBACA
chr1 10 20 AACCCCHQ
chr1.18-40.txt
chr1 18 40 AA12KCCHQ
chr7.22-23.txt
chr7 22 23 KLJMWQKD
chr7 22 23 XJKFIRHFBF24
chrX.199-201.txt
chrX 199 201 AVJI24
私はawk
で文書を分割試しましたが、それは私が何をしたいのかではありません。
awk -F, '{print > $1$2$3".txt"}' 1.txt
私は列1,2,3および7
>ls
1.txt
chr1 10 20 . + 11111 AACCCCHQ.txt
chr7 22 23 . . 21 KLJMWQKD.txt
chrX 199 201 . . KK AVJI24.txt
chr1 10 20 . . 00000 ACTGBACA.txt
chr1 18 40 . . 0 AA12KCCHQ.txt
chr7 22 23 . . 8 XJKFIRHFBF24.txt
>cat chr1\ \ \ \ 10\ \ 20\ .\ +\ 11111\ AACCCCHQ.txt
chr1 10 20 . + 11111 AACCCCHQ
を必要としていても、それは私にすべての行を含むファイル名を与え、ファイル内の、それが再び行全体であります
ファイル名とその内容を修正する方法を教えていただければ幸いです。
ありがとうございますが、「。」では動作しません。そして、 '3行目:構文エラーが発生したとき、またはその近くで' – bapors
あなたは何を意味するのかを明確にすることはできますか?あなたはbashや他のシェルを使っていますか? –
私はbashを使用していて、このスクリプトをawk awkscript.awk 1.txtとして実行しています。これは上記のエラーをコメントしてくれます。 – bapors