私は、次のデータフレームを持っているとしたい含まれます:パンダグループによる - すべての列
- グループレコード
month
- 合計
QTY_SOLD
とそれぞれの固有UPC_ID
のNET_AMT
によって(月額) - を含めます残りの列も結果のデータフレームに表示されます
私はこれを行うことができると思った方法は第1です:カラムはD_DATES
を集計し、次にQTY_SOLD
をUPC_ID
と合計します。
スクリプト:
# Convert date to date time object
df['D_DATE'] = pd.to_datetime(df['D_DATE'])
# Create aggregated months column
df['month'] = df['D_DATE'].apply(dt.date.strftime, args=('%Y.%m',))
# Group by month and sum up quantity sold by UPC_ID
df = df.groupby(['month', 'UPC_ID'])['QTY_SOLD'].sum()
現在のデータフレーム:
UPC_ID | UPC_DSC | D_DATE | QTY_SOLD | NET_AMT
----------------------------------------------
111 desc1 2/26/2017 2 10 (2 x $5)
222 desc2 2/26/2017 3 15
333 desc3 2/26/2017 1 4
111 desc1 3/1/2017 1 5
111 desc1 3/3/2017 4 20
所望の出力:
MONTH | UPC_ID | QTY_SOLD | NET_AMT | UPC_DSC
----------------------------------------------
2017-2 111 2 10 etc...
2017-2 222 3 15
2017-2 333 1 4
2017-3 111 5 25
実際の出力:
件のMONTH | UPC_ID
----------------------------------------------
2017-2 111 2
222 3
333 1
2017-3 111 5
...
質問:
- はどのようにして、各行の月が含まれていますか?
- データフレームの残りの列を含めるにはどうすればよいですか?
QTY_SOLD
に加えて、合計額はNET_AMT
ですか?