各列の値に最も一般的な列を取得します。

各番号に最も一般的な文字が必要です。私は様々なことを試みました。何が正しいのか分かりません。各列の値に最も一般的な列を取得します。

import pandas as pd 
from pandas import DataFrame, Series 

original = DataFrame({ 
    'letter': {0: 'A', 1: 'A', 2: 'A', 3: 'B', 4: 'B'}, 
    'number': {0: '01', 1: '01', 2: '02', 3: '02', 4: '02'} 
}) 

expected = DataFrame({'most_common_letter': {'01': 'A', '02': 'B'}})

理想的には、私は可読性を最大限にしようとしています。

出典

2017-06-07 Hatshepsut

を我々はDataFrame.mode()メソッドを使用することができます

In [43]: df.groupby('number')[['letter']] \ 
      .apply(lambda x: x.mode()) \ 
      .reset_index(level=1, drop=True) 
Out[43]: 
     letter 
number 
01   A 
02   B

出典

2017-06-07 07:41:46 MaxU

値がソートされているため、groupby + apply + value_counts+最初にindexを選択してください。

最終変換Seriesto_frameとrename_axisでインデックス名を削除します。

df = original.groupby('number')['letter'] \ 
      .apply(lambda x: x.value_counts().index[0]) 
      .to_frame('most_common_letter') 
      .rename_axis(None) 
print (df) 
    most_common_letter 
01     A 
02     B

同様のソリューション：

from collections import Counter 

df = original.groupby('number')['letter'] \ 
      .apply(lambda x: Counter(x).most_common(1)[0][0]) \ 
      .to_frame('most_common_letter') \ 
      .rename_axis(None) 
print (df) 
    most_common_letter 
01     A 
02     B

またはSeries.modeを使用します。

df = original.groupby('number')['letter'] \ 
      .apply(lambda x: x.mode()[0][0]) 
      .to_frame('most_common_letter') 
      .rename_axis(None) 
print (df) 
    most_common_letter 
01     A 
02     B

出典

2017-06-07 05:09:48 jezrael

を '.idxmax（）'か何かを使って、読みやすさを向上させる方法はありますか？ – Hatshepsut

残念ながら今私は考えていない:( – jezrael

>>> df = pd.DataFrame({ 
    'letter': {0: 'A', 1: 'A', 2: 'A', 3: 'B', 4: 'B'}, 
    'number': {0: '01', 1: '01', 2: '02', 3: '02', 4: '02'}}) 
>>> df['most_common_letter']=df.groupby('number')['letter'].transform(max) 
>>> df = df.iloc[:,1:].drop_duplicates().set_index('number') 
>>> df.index.name = None 
>>> df 
    most_common_letter 
01     A 
02     B

0それは可読性場合に役立ちます

またはこの方法：

>>> df['most_common_letter']=df.groupby('number')['letter'].transform(max) 
>>> df = df.drop('letter', axis=1).drop_duplicates().rename({'number': None}).set_index('number') 
>>> df 
    most_common_letter 
01     A 
02     B

出典

2017-06-07 05:20:36 yobogoya

各列の値に最も一般的な列を取得します。

答えて

関連する問題