1
私は約200万行のデータフレームを持っています。私がこのグループをすればpandas groupby sumには時間がかかりますが、どうすれば最適化できますか?
df = df.groupby(by=['country','os','device'], as_index=False)
ほんの少し時間がかかります。しかし、私がしている場合:
df = df.groupby(by=['country','os','device'], as_index=False).sum()
それは永遠にかかるし、私はスクリプトを殺す必要があります。
これは私がパンダ17から
20に更新したときですが、なぜでしょうし、それが再び高速に動作しますので、どのように私はそれを書き換えることができます始めましたか?
EDIT:
nl,windows,c,awdo2323fa3rj90
uk,mac,c, awdawdoj93di303
nl,ios,m, aawd9efri403
nl,ios,m, 39fnsefwfpiw3r
EdChumはGROUPBY戻り、私は(和を加えた)、これは被加工物GROUPBY言ったように[国、OS、デバイス、md5_id] 出力
nl,windows,c
uk,mac,c
nl,ios,m
なければなりませんパンダ17では、しかし、私はこれは今は20の問題を引き起こしていると思う、なぜなら数字の列がないからです。
'自体によってgroupby'は単なるオブジェクトでの合格
subset
に基づく非繰り返し行されるように、グループ化をどのようにしてメタデータだけにするかを記述します。オブジェクトに対して実際に何らかの集約を実行するときは、実際の作業が行われるときです。 groupby列のカラムまたは欠損値にdtypesが混在していますか? – EdChum@EdChumデータが欠落していないことを確認し、すべての列がオブジェクトであることを確認しました。だから多分sum()演算がPandas 20でもう正しくないのでしょうか?私は4列の文字列を持っており、3列(国、OS、デバイス)の一意の値を持っています – user3605780
残念ながら、数値ではない列を 'sum'しようとしていますか?代表的なサンプルデータと希望の出力を投稿できますか? – EdChum