データフレームは行の名前としてグループ化された行の値を使用します

私はちょうどPython（pandas）で作業を始めました。今は最初の質問があります。私は、次の行名を持つデータフレームを持っている：データフレームは行の名前としてグループ化された行の値を使用します

ID A Class 
1 True [0,5] 
2 False [0,5] 
3 True [5,10] 
4 False [10,20] 
5 True [0,5] 
6 False [10,20]

は今、私はこのような何かを行うことができますクールなソリューション、を探しています：

Class True False 
[0,5] 2  1 
[5,10] 1  0 
[10,20] 0  2

私はTrueどれだけをカウントしたいですFalse私はClassのために持っています高速なソリューションはありますか？私のデータフレームは2百万以上のエントリを持つことができます。

出典

2016-04-01 Brainfail

がdfをしてみましょうことが、あなたのデータフレームを、私が最初に使用します。

g = df.groupby('Class')['A'].value_counts().reset_index()

返す：

 Class  A 0 
0 [0,5] True 2 
1 [0,5] False 1 
2 [10,20] False 2 
3 [5,10] True 1

は、私が旋回しますあなたの希望の形状を得るために上記の表：

a = pd.pivot_table(g, index='Class', columns='A', values=0).fillna(0)

返信：

A  False True 
Class     
[0,5]  1.0 2.0 
[10,20] 2.0 0.0 
[5,10]  0.0 1.0

出典

2016-04-01 20:59:46

'Class'の型が文字列ではなくリストである場合、これは非ハッシュ型の例外をスローします。 –

これを指摘してくれてありがとう。それは他の答えの場合にも起こりますか？ –

です。コメントする。 –

pivot_tableを使用して集計を行うことができます。その後、必要な出力と一致するように列名とインデックスをフォーマットするだけです。

# Perform the pivot and aggregation. 
df = pd.pivot_table(df, index='Class', columns='A', aggfunc='count', fill_value=0) 

# Format column names and index to match desired output. 
df.columns = [c[1] for c in df.columns] 
df.reset_index(inplace=True)

結果出力：

 Class False True 
0 [0,5]  1  2 
1 [10,20]  2  0 
2 [5,10]  0  1

編集：

上記溶液は'Class'列の要素は文字列であることを前提としています。彼らはリストがある場合は、次の操作を行うことができます：

df['Class'] = df['Class'].map(tuple) 
**original solution code here** 
df['Class'] = df['Class'].map(list)

出典

2016-04-01 20:59:34 root

私はそれをPython 2.7およびpandas 0.18.0で動作させることができませんでした。それは 'aggfunc = len'でも動作します。 – ayhan

それは奇妙です。 Python 3.5＆Pandas 0.18.0で動作します。 – root

インデックスだけを持つデータフレームを返します。カウントはありません。 True/Falseの値がどう扱われるかに関する問題？ – ayhan

データフレームは行の名前としてグループ化された行の値を使用します

答えて

関連する問題