2017-06-27 15 views
1

機械学習処理用の入力テーブルを生成するために、pandas/python/numpy/datalab/bigQueryを使って作業しています。データは、ゲノムである - そして今、私は 174行の小さいサブセットで働いています 12430列名が同じ方法でBigQueryの(df_pik3ca_features = bq.Query(std_sql_features).to_dataframe(dialect='standard',use_cache=True)) から抽出された列は、行名が抽出され dataframe/matrixを使ってsklearn&Tensorflowの入力を作成する

samples_rows = bq.Query('SELECT sample_id FROMスピーディー-使者-167213.pgp_orielresearch.pgp_PIK3CA_all_features_values_step_3 GROUP BY sample_id')

抽出された名前付きの行と列を持つデータフレーム/マトリックスを作成する最も簡単な方法は何でしょうか。

私はパンダのデータフレームを調べて、名前をパラメータとして渡す方法を見つけることができませんでした。空の配列のための

、ノー名前で、次の(numpyのを)見つけることができた。他の方法がない場合

a = np.full([num_of_rows, num_of_columns], np.nan) 
a.columns 

は、私は(非常によくRを知っている - 私は私がそれを使用することができますことを願っていますデータラブ)

多くの感謝!

答えて

1

リストに列名と行名が格納されている場合は、.locを使用して、正確な行と列を選択できます。行の名前がインデックスに含まれていることを確認してください。インデックスに正しい行名を入力するには、df.set_index('sample_id')を実行する必要があります。

行と列が変数row_namescol_namesにあると仮定して、これを行います。

df.loc[row_names, col_names] 
+0

ありがとうございます。私が使用したコード(関心のある人なら誰でも):パンダをpd としてインポートするC = list(df_pik3ca_features ['PIK3CA_features']) r = list(df_rows ['sample_id']) data = pd.DataFrame(columns = c、index = r) data.head() – eilalan

関連する問題