TopGO RパッケージのInterProScan結果を解析します。列1に基づいて行を折りたたみます。
私は、私が持っているものの少し離れたフォーマットでファイルを持っていたいと思います。
# input file (gene_ID GO_ID1, GO_ID2, GO_ID3, ....)
Q97R95 GO:0004349, GO:0005737, GO:0006561
Q97R95 GO:0004349, GO:0006561
Q97R95 GO:0005737, GO:0006561
Q97R95 GO:0006561
# desired output (removed duplicates and rows collapsed)
Q97R95 GO:0004349,GO:0005737,GO:0006561
あなたがここに全体のデータファイルを使用してツールをテストすることができます。
https://drive.google.com/file/d/0B8-ZAuZe8jldMHRsbGgtZmVlZVU/view?usp=sharing
あなたの質問を編集しました。削除されたタグperl、shell、awkを削除しました。どういう意味ですか?それらの答えはもはや受け入れられないでしょうか? – Kent
すべての言語が受け入れられます – biotech
同じ最初の列を持つすべての行が(サンプルにあるように)入力内で互いに隣接しているという事実に頼ることはできますか?これにより、コードをより効率的にすることができます。 – hobbs