GROUPBYおよびエントリ

としてnumpyのアレイとパンダのデータフレームを減らすには、私は、次の構造を有するpandas.DataFrameを有する：GROUPBYおよびエントリ

>>> data 
a b values 
1 0 [1, 2, 3, 4] 
2 0 [3, 4, 5, 6] 
1 1 [1, 3, 7, 9] 
2 1 [2, 4, 6, 8]

（'values'をnumpy.arrayの種類を有します）。私がしたいのは、データを列'a'でグループ化し、値のリストを結合することです。値の順序が問題ではないこと

>>> data a values 1 [1, 2, 3, 4, 1, 3, 7, 9] 2 [3, 4, 5, 6, 2, 4, 6, 8]

注：私の目標は、次のようになってしまうことです。これをどのように達成するのですか？私は何かのような何かについて

>>> grps = data.groupby(['a']) >>> grps['values'].agg(np.concatenate)

しかし、これはKeyErrorで失敗します。私はこれを達成するためのパンダ的な方法があると確信しています - しかし、どのように？おかげさまで

出典

2017-08-23 rammelmueller

、あなたができるグループとはnp.hstack適用されます：あなたのフレームを取り戻すために

In [278]: df.groupby('a')['values'].apply(np.hstack) 
Out[278]: 
a 
1 [1, 2, 3, 4, 1, 3, 7, 9] 
2 [3, 4, 5, 6, 2, 4, 6, 8] 
Name: values, dtype: object

を、あなたはpd.Series.to_frameをする必要がありますし、 pd.reset_index：

In [311]: df.groupby('a')['values'].apply(np.hstack).to_frame().reset_index() 
Out[311]: 
    a     values 
0 1 [1, 2, 3, 4, 1, 3, 7, 9] 
1 2 [3, 4, 5, 6, 2, 4, 6, 8]

パフォーマンス

df_test = pd.concat([df] * 10000) # setup 

%timeit df_test.groupby('a')['values'].apply(np.hstack) # mine 
1 loop, best of 3: 219 ms per loop 

%timeit df_test.groupby('a')['values'].sum() # John's 
1 loop, best of 3: 4.44 s per loop

sumは、リストのための非常に非効率的で、かつValuesがnp.arrayあるときは動作しません。

出典

2017-08-23 09:40:45

結果の列の名前が '' values''であることをどのように達成できますか？ – rammelmueller

@rammelmullerあなたはaについて何をしたいですか？b？もうやめろ？ –

'' b''はデフォルトで削除されますが、 '' a''はそのままにして同じ名前にする必要があります。 – rammelmueller

sumを使用してリストに参加できます。その後、

In [640]: data.groupby('a')['values'].sum() 
Out[640]: 
a 
1 [1, 2, 3, 4, 1, 3, 7, 9] 
2 [3, 4, 5, 6, 2, 4, 6, 8] 
Name: values, dtype: object

あるいは、ジョンゴールの答えと同様に

In [653]: data.groupby('a', as_index=False).agg({'values': 'sum'}) 
Out[653]: 
    a     values 
0 1 [1, 2, 3, 4, 1, 3, 7, 9] 
1 2 [3, 4, 5, 6, 2, 4, 6, 8]

出典

2017-08-23 09:38:52 Zero

numpy配列では、和バージョンは機能しません。「function does not reduce」というメッセージが表示されているようです。 – rammelmueller

答えて

関連する問題