セッションを、少なくとも15分の休憩を持たない再生曲のセットとして定義しました。私の目標は、各ユーザーの平均セッション長を見つけることです。パンダを使用するときにグループに列を追加する別の方法はありますか?
これまでのところ、私はpythonとpandasを使用して、以下のデータをユーザーIDでグループ化し、それらのグループのそれぞれを開始タイムスタンプでソートしました。
入力データ:これまでに
マイコード:私は間に休憩を計算したい
次へ:上記のコードの
start_end_song.groupby('user_id').apply(lambda x: x.sort_values('start_timestamp'))
出力tの終了タイムスタンプ彼は最初の曲と次のタイムスタンプの開始。
しかし、これは動作しません:
start_end_song.groupby('user_id')\
.apply(lambda x: x.sort_values('start_timestamp'))\
.apply(lambda x: x['break']= start_end_song['end_timestamp']- start_end_song['start_timestamp'].shift(-1))
にSyntaxError:ラムダが割り当て
を含めることはできませんがGROUPBYに列を追加するための別の方法はありますか?
実際のデータはなり便利です – piRSquared