もう一度ヘルプが必要です。最初の辞書のキーと第2の辞書の値を比較する
多くの情報を含む大きなデータベースファイル(db.csvと呼ぶ)があります。
説明するために簡素化されたデータベースファイル:
私はそれらをクラスタ化するために、私の遺伝子配列にusearch61 -cluster_fastを実行します。
「clusters.uc」という名前のファイルが取得されました。私はcsvとしてそれを開いた。そして、私はクラスタ番号をキーとして、gene_id(VFG ...)を値として辞書を作成するコードを作った(dict_1と言う)。 dict_1
0 ['VFG003386', 'VFG034084', 'VFG003381']
1 ['VFG000838', 'VFG000630', 'VFG035932', 'VFG000636']
2 ['VFG018349', 'VFG018485', 'VFG043567']
...
14471 ['VFG015743', 'VFG002143']
これまでのところは良い:ここで
は、私は、ファイルに保存されている作られたものの一例です。次にdb.csvを使って私はgene_id(VFG ...)がキーで、VF_Accession(IA ...またはCVF ..またはVF ...)が値、イラストである別の辞書(dict_2)を作った:dict_2
私は最後にしたいことは、各VF_Accessionのクラスタグループ、イラストの番号を持つことです。
IA027 [0,5,6,8]
CVF399 [15, 1025, 1562, 1712]
...
だから私は、私はまだ私は比較のコードを作成する必要があり、コードで初心者ですので、推測dict_1(VFG ...)からdict_2(VFG ...)のキーまでの値。一致する場合は、VF_Accessionをキーとしてすべてのクラスタ番号を値として入れます。 VF_Accessionはキーなので重複することはできません。リストの辞書が必要です。私はdict_1のために作ったので、私はそれを行うことができると思います。しかし、私の問題は、dict_1の値をdict_2のキーと比較し、各VF_Accessionにクラスター番号を入れる方法を見つけることができないということです。私を助けてください。
バイオについて多く知っている - 同じgene_id(VFG)が複数のクラスターに現れることはありますか? –
はい、残念ながらそれらのいくつかはあります。 IA027 [0 | 12、5、6、8]またはIA027 [0(12)、5、6、8] –