はそれに応じて

グループ化されたオブジェクトに対する操作を実行すると、変数を作成した後、私はこのようになり、データフレームを持つデータフレームをインデックス作成：はそれに応じて

Id Category Score 
1  M  0.2 
2  C  0.4 
2  M  0.3 
1  C  0.1 
2  M  0.3 
1  M  0.2 
1  C  0.1 
1  C  0.1 
2  C  0.4

私はIdとCategoryによってグループ化する、そして最高を見つけますスコアを計算して、Category_Labelという新しい変数を作成します。この変数の行は最大スコアインデックスでCategoryに等しくなります。

：

出力は、言い換えれば、この

Id Category Score Category_Label 
1  M  0.2   M 
2  C  0.4   C 
2  M  0.3   C 
1  C  0.1   M 
2  F  0.03   C 
1  M  0.2   M 
1  C  0.1   M 
1  E  0.01   M 
2  C  0.4   C

のようになります、すべて1

の最大スコアに対応する新しい変数「Category_Label should be equal to the row of Category`は、私はこれを試してみました

df[df['Category_Label']] == df.loc[df.groupby(['Id','Category'])['Score'].transform(lambda a: a.max())],'Category' ]

しかし、私は遠く離れています！このquestionとthisを調べましたが、十分に役立たないです。

出典

2017-08-24 owise

利用idxmaxのmapを見つけるためにすることを、使用しています。
transformを使用して、すべてのインデックスをブロードキャストします。新しい列

df.assign(
    Category_Label=df.loc[ 
     df.groupby('Id').Score.transform('idxmax'), 
     'Category' 
    ].values 
) 

    Id Category Score Category_Label 
0 1  M 0.2    M 
1 2  C 0.4    C 
2 2  M 0.3    C 
3 1  C 0.1    M 
4 2  M 0.3    C 
5 1  M 0.2    M 
6 1  C 0.1    M 
7 1  C 0.1    M 
8 2  C 0.4    C

出典

2017-08-24 18:17:16 piRSquared

@JohnGaltは質問を読んで、OPは '['Id'、 'Category']' 。しかし、それは意味をなさない。それを指摘していただきありがとうございます。 – piRSquared

私はあなたのソリューションが好きです。これははるかにクリーンです。 – Zero

うわー〜ニースと簡潔！:) – Wen

applyを使用してScoreidxmaxを取得し、Category値に使用できます。その後max位置がどこにあるかId

In [1591]: df.Id.map(df.groupby('Id').apply(lambda x: x.loc[x.Score.idxmax(), 'Category'])) 
Out[1591]: 
0 M 
1 C 
2 C 
3 M 
4 C 
5 M 
6 M 
7 M 
8 C 
Name: Id, dtype: object

詳細

In [1592]: df.groupby('Id').apply(lambda x: x.loc[x.Score.idxmax(), 'Category']) 
Out[1592]: 
Id 
1 M 
2 C 
dtype: object 

In [1593]: df['Category_Label'] = df.Id.map(
           df.groupby('Id') 
           .apply(lambda x: x.loc[x.Score.idxmax(), 'Category'])) 

In [1594]: df 
Out[1594]: 
    Id Category Score Category_Label 
0 1  M 0.2    M 
1 2  C 0.4    C 
2 2  M 0.3    C 
3 1  C 0.1    M 
4 2  M 0.3    C 
5 1  M 0.2    M 
6 1  C 0.1    M 
7 1  C 0.1    M 
8 2  C 0.4    C

出典

2017-08-24 18:11:11 Zero

"1594" せずに試すことができます...時間にCategory値

割り当てをつかむためにlocで

使用結果REPLを再起動する：p –

それとも、groupby

df.merge(df.sort_values(['Id','Score']).\ 
    drop_duplicates(['Id'],keep ='last')[['Id','Category']],on='Id',how='left').\ 
    rename(columns={'Category_x':'Category','Category_y':'Category_Label'}) 



Out[176]: 
    Id Category Score Category_Label 
0 1  M 0.20   M 
1 2  C 0.40   C 
2 2  M 0.30   C 
3 1  C 0.10   M 
4 2  F 0.03   C 
5 1  M 0.20   M 
6 1  C 0.10   M 
7 1  E 0.01   M 
8 2  C 0.40   C

出典

2017-08-24 18:22:51 Wen

答えて

関連する問題