pandas-groupby

2熱

1答えて

私は、次のような単純なテーブルを持っている場合：私は2つのまたは3つのbのIE、私は基本的に使用されている、場所に重複レコードを集約したい場合 index location col1 col2 col3 col4 1 a TRUE yes 1 4 2 a FALSE null 2 6 3 b TRUE null 6 3 4

7熱

3答えて

pandas groupbyとrolling_apply NaNを無視する

私はpandasデータフレームを持っており、（groupby句の後の）列のローリング平均を計算したいと思います。しかし、私はNaNを除外したい。たとえば、groupbyが[2、NaN、1]を返す場合、結果は1.5で、現在はNaNを返します。私は次のことを試してみたが、動作していないよう： df.groupby(by=['var1'])['value'].apply(pd.rolling_app

0熱

1答えて

xメンバー以上のグループを選択

xメンバー以上のグループをグループ化したデータフレームの中から選択する方法はありますか？以下のような何か：私は、ドキュメント内またはSO上で解決策を見つけることができません grouped = df.groupby(['a', 'b']) dupes = [g[['a', 'b', 'c', 'd']] for _, g in grouped if len(g) > 1] 。

1熱

1答えて

パンダグループウェアTimeGrouperと

としてthis質問です。次のようにpd.rolling_mean列のために私のdfに適用した場合に、このGROUPBY作品：私はpd.rolling_stdとpd.rolling_meanが含まれている私のdfの別の要素に同じGROUPBYロジックを適用するにはどうすればよい data['maFast']=data['Last'].groupby(pd.TimeGrouper('d'))

6熱

1答えて

パンダGROUPBYが

をカウントし、私はこのようになりますDATAFRAME持っ +------+------+-------+-------+--------+ | | 1-10 | 11-25 | 25-50 | 51-100 | +------+------+-------+-------+--------+ | john | 1 | 1 | 1 | 1 | | jane | 1 | 1 |

1熱

1答えて

GROUPBYは、新しい列

を作成するために、カラムとインデックスを使用して、合計が、私は、次のデータフレームがあるとします。 import pandas as pd group = ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'] df = {'population': [100,200,300,400,500,600,700,800], 'city_name': ['Ch

6熱

2答えて

pandas：複数のgroupby-apply操作を行うには

私はRのdata.tableでもっと経験がありますが、pandasを学ぼうとしています。 dt_m_summaryに表示され、device_idとcategoryだけでなく、 > head(dt_m) event_id device_id longitude latitude time_ category 1: 1004583 -100015673884079572 NA

12熱

3答えて

なぜパンダローリングは1次元のndarrayを使用するのですか

私はパンダrollingの機能を使用して回転多因子回帰を実行するよう動機づけられました（この多項式回帰多因子回帰についてはNOTです）。私は、df.rolling(2)の後にapplyを使用し、結果としてpd.DataFrameを取って、.valuesでndarrayを抽出し、必要な行列乗算を実行することを期待しました。そんなことはできませんでした。ここでは、私が見つけたものです： print