事前にお詫び申し上げます。私はPython/Pandasの新機能ですので、この質問はおそらく貧弱です。多くの鍵でパンダが困っている
私は約4百万行と約10列のデータフレームを持っています。
他の各列の異なる値(たとえば、B、C、D、E、F、G、H、Iなど)によって定義される各グループの最初の列J)。これは約200,000のグループを定義します。
私はgroupbyを試しました。
mytest = df.groupby(['B','C','D', 'E', 'F', 'G', 'H', 'I', 'J'])
mytest.mean()
これにより、コンピュータ上のすべてのメモリ(32GB)を取得してクラッシュします。スタータでは、次のように入力すると希望の結果が得られます。
collapse A, by(B C D E F G H I J)
チャンピのようです。
Pandas/Pythonを使用して同じ操作を行う方法はありますか?どんな助けでも大歓迎です。