ムービー名、それぞれのジャンル、ベクトル表現(numpy配列)を持つムービーデータフレームがあります。パンダのデータフレームと平均配列の列別
ID Year Title Genre Word Vector
1 2003.0 Dinosaur Planet Documentary [-0.55423898, -0.72544044, 0.33189204, -0.1720...
2 2004.0 Isle of Man TT 2004 Review Sports & Fitness [-0.373265237, -1.07549703, -0.469254494, -0.4...
3 1997.0 Character Foreign [-1.57682264, -0.91265768, 2.43038678, -0.2114...
4 1994.0 Paula Abdul's Get Up & Dance Sports & Fitness [0.3096168, -0.57186663, 0.39008939, 0.2868615...
5 2004.0 The Rise and Fall of ECW Sports & Fitness [0.17175879, -2.38005066, -0.45771399, 1.32608...
私はジャンル別にグループに好きで、ジャンルごとの平均ベクトル表現(ジャンルの各映画ベクトルの要素ごとの平均)を取得したいです。
私が最初に試さ:
movie_df.groupby(['Genre']).mean()
をしかし、平均機能に組み込まれてはnumpyの配列の平均を取ることができません。
私はそうして、各グループに適用するために自分自身の関数を作成しようとしたが、私はこれが正しく適用されます使用しているかわからない:
def vector_average(group):
series_to_array = np.array(group.tolist())
return np.mean(series_to_array, axis = 0)
movie_df.groupby(['Genre']).apply(vector_average)
任意のポインタをいただければ幸いです!
あなたは(5) 'df.headをプリントアウト'とそれをここに貼り付けてくださいことはできますか? –
はい、質問にあります。 –
私はデータフレームのサンプルを提供する最善の方法に慣れていません。 – Matt