1
私は次のようなデータで、pandas
dataframe
と.groupby
を使用してスマートな方法のいくつかの計算でやろうとしていますが、データフレーム内のいくつかの操作を行います。一度
import numpy as np
import pandas as pd
df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
'foo', 'bar', 'foo', 'foo'],
'B' : ['one', 'one', 'two', 'three',
'two', 'two', 'one', 'three'],
'C' : np.random.randn(8),
'D' : np.random.randn(8)})
In [2]: df
Out[2]:
A B C D
0 foo one 0.469112 -0.861849
1 bar one -0.282863 -2.104569
2 foo two -1.509059 -0.494929
3 bar three -1.135632 1.071804
4 foo two 1.212112 0.721555
5 bar two -0.173215 -0.706771
6 foo one 0.119209 -1.039575
7 foo three -1.044236 0.271860
私は短いで計算したいとより高速な方法以下出力:
A B var1 var2 var3
bar one 0.000000 0.000000 0.000000
three 0.000000 0.000000 0.000000
two 0.000000 0.000000 0.000000
foo one 0.822999 19.705290 0.731207
three 0.000000 0.000000 0.000000
two 0.229541 5.509553 0.697971
私は別の方法でそれを行う方法を知っている瞬間のために:
# lambda functions to apply
diff = lambda x: max(x)-min(x)
per = lambda x: (max(x)-min(x))/max(x)
ratio1 = lambda x: (max(x)-min(x))/ len(x)
# grouping using col C
df.groupby(['A','B'])['C'].apply(diff) # var1
#Grouping using col D
df.groupby(['A','B'])['D'].apply(per) # var2
df.groupby(['A','B'])['D'].apply(ratio1) #var3
編集: 私はデータフレーム内のすべての結果を結合する方法を知っていますが、私はこれらの3つの操作を1つの方法で実行する方法を知っています。
df.groupby(['A','B']).agg({'C': diff, 'D': [per, ratio1]})
あなたの機能var1
、var2
とvar3
を呼び出すことができます名前の変更部分をスキップするには、次のいずれかのアドバイスは、あなたがagg()
を使用することができます...でも低いため、性能のひとつですべてを行うにしないように
@zipa。動作しません。エラー:関数名は一意である必要があり、古典的な機能に見られる複数の名前 –
PeCaDe
さて、チェンジ 'lambda's :) – zipa
FYIそれは[既知の問題](https://github.com/pandas-dev/pandas/issuesです/ 7186) – zipa