機械学習処理用の入力テーブルを生成するために、pandas/python/numpy/datalab/bigQueryを使って作業しています。データは、ゲノムである - そして今、私は 174行の小さいサブセットで働いています 12430列名が同じ方法でBigQueryの(df_pik3ca_features = bq.Query(std_sql_features).to_dataframe(dialect='standard',use_cache=True))
から抽出された列は、行名が抽出され dataframe/matrixを使ってsklearn&Tensorflowの入力を作成する
samples_rows = bq.Query('SELECT sample_id FROM
スピーディー-使者-167213.pgp_orielresearch.pgp_PIK3CA_all_features_values_step_3
GROUP BY sample_id')
抽出された名前付きの行と列を持つデータフレーム/マトリックスを作成する最も簡単な方法は何でしょうか。
私はパンダのデータフレームを調べて、名前をパラメータとして渡す方法を見つけることができませんでした。空の配列のための
、ノー名前で、次の(numpyのを)見つけることができた。他の方法がない場合
a = np.full([num_of_rows, num_of_columns], np.nan)
a.columns
は、私は(非常によくRを知っている - 私は私がそれを使用することができますことを願っていますデータラブ)
多くの感謝!
ありがとうございます。私が使用したコード(関心のある人なら誰でも):パンダをpd としてインポートするC = list(df_pik3ca_features ['PIK3CA_features']) r = list(df_rows ['sample_id']) data = pd.DataFrame(columns = c、index = r) data.head() – eilalan