大きなデータフレーム(40M行)があり、その値がgroupbyオブジェクトの条件を満たす場合、1つの列に基づいて行をフィルタリングしたい。groupbyの結果を含むパンダのデータフレーム
たとえば、ランダムなデータがあります。 「文字」列には、実際に一意の値の数千を持っています:
x y z letter
0 47 86 30 e
1 58 9 28 b
2 96 59 42 a
3 79 6 45 e
4 77 80 37 d
5 66 91 35 d
6 96 31 52 d
7 56 8 26 e
8 78 96 14 a
9 22 60 13 e
10 75 82 9 d
11 5 54 29 c
12 83 31 40 e
13 37 70 2 c
14 53 67 66 a
15 76 33 78 d
16 64 67 81 b
17 23 94 1 d
18 10 1 31 e
19 52 11 3 d
は「文字」列にGROUPBYを適用し、各文字の列xの合計を取得:
df.groupby('letter').x.sum()
>>> a 227
b 122
c 42
d 465
e 297
その後、最高の合計を持つ文字を見て、手動でしきい値を特定します。この例では、しきい値は200
df.groupby('letter').x.sum().reset_index().sort_values('x', ascending=False)
>>> letter x
3 d 465
4 e 297
0 a 227
1 b 122
2 c 42
かもしれない、私は立ち往生午前ところです。元のデータフレームでは、 'x'> 200のgroupbyの合計がある場合は文字を保持し、他の行は削除したいと考えています。したがって、この例では、すべての行をd、eまたはaに保ちます。
私はこのような何かをしようとしていたが、それは動作しません:
df.groupby('letter').x.sum().filter(lambda x: len(x) > 200)
とさえ私はGROUPBYオブジェクトをフィルタリングする場合、どのように私は、元のデータフレームをフィルタリングするためにそれを使うのですか?
チャームのように働いた。ありがとうございました。あなたは、非常に非 - ピジョンソニックな何かをすることから私を救った – laurakurup