2011-07-27 1 views
1


私は調査したい2組のデータがあります。第1は、異なる「細胞状態」が与えられた遺伝子/ゲノム関連データである。第2のデータセットは、遺伝子を生物学的経路に関連付けるものである。私信じて私の質問はリレーショナルデータベースです。

'1つのデータフレームから関連するデータを表示し、別のデータフレームに関連付ける方法を教えてください。言い換えれば、私は細胞状態データをグラフにし、それを経路とその特定の遺伝子と関連づけたいと思う。 (私はここに絵に行くと思います。)
dataframe1 - アフィメトリクス遺伝子チップからデータ
遺伝子、細胞STATE1、細胞STATE2 ...
gene1、X1、Y1、。 ..
gene2、X2、Y2、...
gene.x、... ...

"1" "遺伝子" "log_b" "log_b_rich" "Fc_cdt_rich_tot" "fc_Etoh_CDT_tot_mono"「fc_Etoh_CDT_tot_poly 「 "fc_Etoh_CDT_mono_poly" "fc_Etoh_Rich_tot_mono" "fc_Etoh_Rich_tot_poly" "fc_Etoh_Rich_mono_poly" "2" "PHF13" -2.712616698 -1.47923545 -0.791138043 -0.549610558 0.143808182 0.69341874 0.320812876 1.089260116 0.76844724
"3" "SPSB1" -1.808348454 -1.965601198 -1.349135752 -0.780105329 0.410647447 1.190752776 0.587287796 1.260350195 0.673062399

dataframe2 - KEGG DBからデータ
pathway1、遺伝子-X1、遺伝子-X2、...
pathway2、遺伝子-Y1、遺伝子-Y2、...
pathway3、遺伝子-Z1、...

"PGH1" "ADH1C" "PGAM2" "ADH1B" "ADH1A" "ACSS2" "PDHB" "ACSS1" "PGAM4" "PDHA2" "LDHB" "LDHB" "ADH1C" "PGAM2" "ADH1B" "ADH1A" "ACSS2" "PDHB" "ACSS1" PDHA1" "LDHAL6B" "PFKL" "LDHAL6A" "FBP1" "PFKP" "ALDH3B2" "FBP2" "PFKM" "ALDH3B1" "PGM2" "G6PC" "ALDH7A1" "ALDH1B1" "PKM2" "PGM1" "DLD" "PKLR" "ALDH9A1" "ALDOA" "ALDOC" "ALDOB" "ADH5" "HK2" "HK1" "ADH6" "ADH7" "ALDH3A2" "G6PC2" "ALDH3A1" "GALM" "TPI1" "AKR1A1"「ADH4 「GPK」「GPK」「PGK1」「PGK2」
「GPK」「GPK」「GPK」「GPK」「GPK」「GPK」「GPK」「GPK」「GPK」「GPK」「GPK」「GPK」「PGK1」 2 "" KEGG_CITRATE_CYCLE_TCA_CYCLE "" PHG13 "" OGDHL "" OGDH "" PDHB "" IDH3G "" LOC283398 "" IDH2 "" IDH1 "" PDHA2 "" PDHA1 "" SUCLA2 "" FH "" DLST "" ACO2 " 「SUCLG2」「ACO1」

"PHF13"は、各ステップの関連性を示すために強調表示されています。

私がしたいのは、 'cell-state1'( - )が 'cell-state2'とは異なる遺伝子/経路を活性化するかどうかです。さらに、特定の経路の細胞状態1〜2の間の相関(t検定およびおそらくグラフ)について試験したい。

私の質問は、最も簡単に/効率的にこれを行うためのコマンドや方法です:マージまたはダミー変数を使用していますか?

HTH
もっと簡単ですか?マージ変数またはインジケータ変数

+3

実際にプログラミングの問題となり、問題自体が明確になるように(データの構造を含む)質問を言い換えてください。遺伝子-x1とは何か、細胞状態とは何か···?私たちが実際にヒントを持つようにサンプルデータセットを与えます。また、http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example –

答えて

0

私は何をしたいことは 'セル-STATE1は'(イン)からの異なる遺伝子経路を活性化した場合に 'セルSTATE2。' を参照、です

これは、要因分析が必要なように聞こえます。あなたは善良な人にそれについてstatistics.stackexchange.comと尋ねることができます。

+0

も参照してください。私の質問は必ずしも統計ではなく、リレーショナルデータベースです。多分私の質問は、「どのようにして、あるデータフレームから関連するデータを表示し、それを他のデータフレームに関連付けることができますか?私は、細胞状態のデータをグラフにして、それを遺伝子と経路に関連づけたいと思います。 – oaxacamatt

関連する問題