みましょう私は、このデータフレームを持っていると言う:パンダの列の値に基づいてデータを分類する方法は?
Cat1 : 0 <= x <= 1
Cat2 : 1 < x <= 2
Cat3 : 2 < x <= 3
Cat4 : 3 < x <= 4
と列postTestscore
raw_data = {'regiment': ['Nighthawks', 'Nighthawks', 'Nighthawks', 'Nighthawks', 'Dragoons', 'Dragoons', 'Dragoons', 'Dragoons', 'Scouts', 'Scouts', 'Scouts', 'Scouts'],
'payout': [.1, .15, .2, .3, 1.2, 1.3, 1.45, 2, 2.04, 3.011, 3.45, 1],
'name': ['Miller', 'Jacobson', 'Ali', 'Milner', 'Cooze', 'Jacon', 'Ryaner', 'Sone', 'Sloan', 'Piger', 'Riani', 'Ali'],
'preTestScore': [4, 24, 31, 2, 3, 4, 24, 31, 2, 3, 2, 3],
'postTestScore': [25, 94, 57, 62, 70, 25, 94, 57, 62, 70, 62, 70]}
df = pd.DataFrame(raw_data, columns = ['regiment', 'payout', 'name', 'preTestScore', 'postTestScore'])
私はブーリアンインデックスを使ってこのようにします:
df.loc[(df['payout'] > 0) & (df['payout'] <= 1), 'postTestScore'].sum()
df.loc[(df['payout'] > 1) & (df['payout'] <= 2), 'postTestScore'].sum()
etc...
それはうまくいきますが、誰かがこれのより簡潔な(pythonic)解決法を知っていますか?
1つのライナーは、常に素晴らしい1つです、ありがとう! –
@Pythoneer 1つのライナーは過大評価されていますが、うまく見えます。 –