dataframe/matrixを使ってsklearn＆Tensorflowの入力を作成する

機械学習処理用の入力テーブルを生成するために、pandas/python/numpy/datalab/bigQueryを使って作業しています。データは、ゲノムである - そして今、私は 174行の小さいサブセットで働いています 12430列名が同じ方法でBigQueryの(df_pik3ca_features = bq.Query(std_sql_features).to_dataframe(dialect='standard',use_cache=True)) から抽出された列は、行名が抽出され dataframe/matrixを使ってsklearn＆Tensorflowの入力を作成する

： samples_rows = bq.Query('SELECT sample_id FROMスピーディー-使者-167213.pgp_orielresearch.pgp_PIK3CA_all_features_values_step_3 GROUP BY sample_id')

抽出された名前付きの行と列を持つデータフレーム/マトリックスを作成する最も簡単な方法は何でしょうか。

私はパンダのデータフレームを調べて、名前をパラメータとして渡す方法を見つけることができませんでした。空の配列のための

、ノー名前で、次の（numpyのを）見つけることができた。他の方法がない場合

a = np.full([num_of_rows, num_of_columns], np.nan) 
a.columns

は、私は（非常によくRを知っている - 私は私がそれを使用することができますことを願っていますデータラブ）

多くの感謝！

出典

2017-06-27 eilalan

リストに列名と行名が格納されている場合は、.locを使用して、正確な行と列を選択できます。行の名前がインデックスに含まれていることを確認してください。インデックスに正しい行名を入力するには、df.set_index('sample_id')を実行する必要があります。

行と列が変数row_namesとcol_namesにあると仮定して、これを行います。

df.loc[row_names, col_names]

出典

2017-06-27 22:02:54

ありがとうございます。私が使用したコード（関心のある人なら誰でも）：パンダをpd としてインポートするC = list（df_pik3ca_features ['PIK3CA_features']） r = list（df_rows ['sample_id']） data = pd.DataFrame（columns = c、index = r） data.head（） – eilalan

dataframe/matrixを使ってsklearn＆Tensorflowの入力を作成する

答えて

関連する問題