2017-01-31 24 views
4

大きなデータフレーム(40M行)があり、その値がgroupbyオブジェクトの条件を満たす場合、1つの列に基づいて行をフィルタリングしたい。groupbyの結果を含むパンダのデータフレーム

たとえば、ランダムなデータがあります。 「文字」列には、実際に一意の値の数千を持っています:

 x y z letter 
0 47 86 30 e 
1 58 9 28 b 
2 96 59 42 a 
3 79 6 45 e 
4 77 80 37 d 
5 66 91 35 d 
6 96 31 52 d 
7 56 8 26 e 
8 78 96 14 a 
9 22 60 13 e 
10 75 82 9 d 
11 5 54 29 c 
12 83 31 40 e 
13 37 70 2 c 
14 53 67 66 a 
15 76 33 78 d 
16 64 67 81 b 
17 23 94 1 d 
18 10 1 31 e 
19 52 11 3 d 

は「文字」列にGROUPBYを適用し、各文字の列xの合計を取得:

df.groupby('letter').x.sum() 
>>> a 227 
    b 122 
    c  42 
    d 465 
    e 297 

その後、最高の合計を持つ文字を見て、手動でしきい値を特定します。この例では、しきい値は200

df.groupby('letter').x.sum().reset_index().sort_values('x', ascending=False) 
>>> letter x 
3  d 465 
4  e 297 
0  a 227 
1  b 122 
2  c 42 

かもしれない、私は立ち往生午前ところです。元のデータフレームでは、 'x'> 200のgroupbyの合計がある場合は文字を保持し、他の行は削除したいと考えています。したがって、この例では、すべての行をd、eまたはaに保ちます。

私はこのような何かをしようとしていたが、それは動作しません:

df.groupby('letter').x.sum().filter(lambda x: len(x) > 200) 

とさえ私はGROUPBYオブジェクトをフィルタリングする場合、どのように私は、元のデータフレームをフィルタリングするためにそれを使うのですか?

答えて

5

あなたは、各行のためのxの合計を計算し、サブセットを行うことが可能な状態との論理シリーズ作成するgroupbytransformを使用することができます。groupby.filterを使用して

df1 = df[df.x.groupby(df.letter).transform('sum') > 200] 

df1.letter.unique() 
# array(['e', 'a', 'd'], dtype=object) 

それとも別のオプションを:

df2 = df.groupby('letter').filter(lambda g: g.x.sum() > 200) 

df2.letter.unique() 
# array(['e', 'a', 'd'], dtype=object) 
+0

チャームのように働いた。ありがとうございました。あなたは、非常に非 - ピジョンソニックな何かをすることから私を救った – laurakurup

関連する問題