pandas：複数のgroupby-apply操作を行うには

私はRのdata.tableでもっと経験がありますが、pandasを学ぼうとしています。 dt_m_summaryに表示され、device_idとcategoryだけでなく、pandas：複数のgroupby-apply操作を行うには

> head(dt_m) 
    event_id   device_id longitude latitude    time_ category 
1: 1004583 -100015673884079572  NA  NA 1970-01-01 06:34:52 1 free 
2: 1004583 -100015673884079572  NA  NA 1970-01-01 06:34:52 1 free 
3: 1004583 -100015673884079572  NA  NA 1970-01-01 06:34:52 1 free 
4: 1004583 -100015673884079572  NA  NA 1970-01-01 06:34:52 1 free 
5: 1004583 -100015673884079572  NA  NA 1970-01-01 06:34:52 1 free 
6: 1004583 -100015673884079572  NA  NA 1970-01-01 06:34:52 1 free 
       app_id is_active 
1: -5305696816021977482   0 
2: -7164737313972860089   0 
3: -8504475857937456387   0 
4: -8807740666788515175   0 
5: 5302560163370202064   0 
6: 5521284031585796822   0 


dt_m_summary <- dt_m[, 
        .(
         mean_active = mean(is_active, na.rm = TRUE) 
         , median_lat = median(latitude, na.rm = TRUE) 
         , median_lon = median(longitude, na.rm = TRUE) 
         , mean_time = mean(time_) 
         , new_col = your_function(latitude, longitude, time_) 
        ) 
        , by = list(device_id, category) 
        ]

新しい列（new_col経由mean_active）：data.tableで、私はこのような何かを行うことができます。私はGROUPBY-適用の結果を持って新しい列をしたい場合、私はまた、元のテーブルに似たby変換を行うことができます：

dt_m[, mean_active := mean(is_active, na.rm = TRUE), by = list(device_id, category)]

（場合には、私が望んでいた、例えば、mean_active行を選択しますいくつかのしきい値よりも大きいか、何か他のことをする）。

私はgroupbyがpandasにあることを知っていますが、私は上記のような簡単な変換の方法を見つけていません。私が考えることができる最高のものは、一連のgroupby-applyを実行してから、結果を1つのdataframeにマージすることでしたが、それは非常にぎこちないようです。それをする良い方法はありますか？

出典

2016-08-26 Anarcho-Chossid

IIUCでは、groupbyとaggを使用してください。詳細については、docsを参照してください。より仕立ての例のようになり

df = pd.DataFrame(np.random.rand(10, 2), 
        pd.MultiIndex.from_product([list('XY'), range(5)]), 
        list('AB')) 

df

df.groupby(level=0).agg(['sum', 'count', 'std'])

# level=0 means group by the first level in the index 
# if there is a specific column you want to group by 
# use groupby('specific column name') 
df.groupby(level=0).agg({'A': ['sum', 'std'], 
         'B': {'my_function': lambda x: x.sum() ** 2}})

注aggメソッドに渡さdictキーを有し'A'と'B'。これは、機能'B'ため'A'ため['sum', 'std']とlambda x: x.sum() ** 2を実行します（そしてそれ'my_function'ラベル）あなたのnew_columnに関係

注2を意味します。 aggでは、渡された関数が列をスカラに縮小する必要があります。 groupby/agg

出典

2016-08-26 06:20:40 piRSquared

ラムダを忘れないでください。'new_col = your_function（latitude、longitude、time_）' – Alexander

それで、 'my_function'を複数の引数をとって呼び出すのはどのようになりますか？長い束線の関数であると想像してください。 –

私が見ている問題は、私の仕事では、ある機能によって変換される変数が1つしかないことはめったにありません。私は通常、Aのみの合計を見つける必要はありません。私は多分データのいくつかの列を取る機能を持っています。次に、その関数の結果を（XとYに似た）集計行に適用して、列を何と呼ぶかを選択する必要があります。私は新しいデータフレームで列を事前に生成しなければならないと言っていますか...何ですか？ –

@piRSquaredは素晴らしい答えですが、あなたの特別なケースでは、非常に柔軟なパンダを使用することに興味があると思いますapply function。一度に1つずつグループに適用できるため、グループ化されたDataFrame内の複数の列を同時に操作できます。

def your_function(sub_df): 
    return np.mean(np.cos(sub_df['latitude']) + np.sin(sub_df['longitude']) - np.tan(sub_df['time_'])) 

def group_function(g): 
    return pd.Series([g['is_active'].mean(), g['latitude'].median(), g['longitude'].median(), g['time_'].mean(), your_function(g)], 
        index=['mean_active', 'median_lat', 'median_lon', 'mean_time', 'new_col']) 

dt_m.groupby(['device_id', 'category']).apply(group_function)

しかし、私は間違いなく@piRSquaredに同意して、期待される出力を含む完全な例を見ると非常に役に立ちます。

出典

2016-08-27 03:54:08 n8yoder

pandas：複数のgroupby-apply操作を行うには

答えて

関連する問題