わかりましたので、私は私と一緒に負担してください、この種のものにかなり新しいです。第二のファイルからIDを持つテキストファイルのフィルタテーブル
search_results_accesions.txt
は、識別子のリストである1行に1つずつ:
私は2つのファイルを持っています。
$ more search_results_accessions.txt
NP_000020.1
NP_000026.2
NP_000027.2
NP_000029.2
NP_000034.1
NP_000042.3
NP_000056.2
NP_000063.2
NP_000065.1
NP_000068.1
NP_000088.3
NP_000112.1
NP_000117.1
NP_000147.1
NP_000156.1
NP_000167.1
NP_000205.1
NP_000228.1
NP_000241.1
NP_000305.3
NP_000347.2
NP_000354.4
NP_000370.2
prot.accession2taxid.txt
は(私のリストではなく、多くの、より多くの)識別子のそれぞれをリストするファイルです。それは、この(ないすべての識別子のが「NP_」で開始されることに注意してください)のように見えます対応するtaxid
を与えます。ここで(3列目はtaxid
Sが含まれている)それは次のようになります。
$ more prot.accession2taxid
accession accession.version taxid gi
APZ74649 APZ74649.1 36984 1137646701
AQT41667 AQT41667.1 1686310 1150388099
WP_080502060 WP_080502060.1 95486 1169627919
ASF53620 ASF53620.1 492670 1211447116
ASF53621 ASF53621.1 492670 1211447117
ASF53622 ASF53622.1 492670 1211447118
ASF53623 ASF53623.1 492670 1211447119
ASF53624 ASF53624.1 492670 1211447120
ASF53625 ASF53625.1 492670 1211447121
ASF53626 ASF53626.1 492670 1211447122
ASF53627 ASF53627.1 492670 1211447123
ASF53628 ASF53628.1 492670 1211447124
ASF53629 ASF53629.1 492670 1211447125
ASF53630 ASF53630.1 492670 1211447126
ASF53631 ASF53631.1 492670 1211447127
ASF53632 ASF53632.1 492670 1211447128
ASF53633 ASF53633.1 492670 1211447129
APZ74650 APZ74650.1 36984 1137646703
APZ74651 APZ74651.1 36984 1137646705
APZ74652 APZ74652.1 36984 1137646707
APZ74653 APZ74653.1 36984 1137646709
APZ74654 APZ74654.1 36984 1137646711
フィールドはタブで区切られています。
私はsearchresults_accessions.txt
ファイルにそれぞれaccession
のtaxid
を取得する必要があります。私はUnixシステムを使用しており、できる限りコマンドラインまたはPythonを使用する方が好きです。
はprot.accession2taxidで区切られていますか? – wpercy
はい、タブ区切りです! –
あなたのQを編集して、search_results_accessionsの最初の要素だけに期待される出力を表示してください。txt(それに一致するデータがあります)。あなたは 'NP_'をトリミングしていますか?末尾の10進値(つまり、 '.1')はどうですか?あなたの最初のデータセットと2番目のデータセットの間に一致が見当たりません。がんばろう。 – shellter