は、私がこのような構造のデータフレームを持つ階層的なデータフレーム

上GROUPBYでカラムを追加します。は、私がこのような構造のデータフレームを持つ階層的なデータフレーム

First  A        B       
Second bar  baz  foo  bar  baz  foo  
Third cat dog cat dog cat dog cat dog cat dog cat dog 
0   3 8 7 7 4 7 5 3 2 2 6 2 
1   8 6 5 7 8 7 1 8 6 0 3 9 
2   9 2 2 9 7 3 1 8 4 1 0 8 
3   3 6 0 6 3 2 2 6 2 4 6 9 
4   7 6 4 3 1 5 0 4 8 4 8 1

だから、3列のレベルがあります。私は第2レベルに新しい列を追加して、第3レベルのそれぞれに対して計算が行われるようにしたいとします。たとえば、 'new' = 'foo' + 'bar'です。だから、結果としてデータフレームは次のようになります。

First  A          B         
Second bar  baz  foo  new  bar  baz  foo  new  
Third cat dog cat dog cat dog cat dog cat dog cat dog cat dog cat dog 
0   3 8 7 7 4 7 7 15 5 3 2 2 6 2 11 5 
1   8 6 5 7 8 7 16 13 1 8 6 0 3 9 4 17 
2   9 2 2 9 7 3 16 5 1 8 4 1 0 8 1 16 
3   3 6 0 6 3 2 6 8 2 6 2 4 6 9 8 15 
4   7 6 4 3 1 5 8 11 0 4 8 4 8 1 8 5

私はこの記事の最後にリストされている回避策を見つけましたが、そのすべてではない「パンダスタイル」とエラーを起こしやすいしています。グループの適用または変換機能は正しい方法のように思えますが、何時間も試してみるとまだ成功しません。

def func(data): 

    fi = data.columns[0][0] 
    th = data.columns[0][2] 

    data[(fi,'new',th)] = data[(fi,'foo',th)] + data[(fi,'bar',th)] 

    print data 
    return data 

print grouped.apply(func)

新しい列は関数内に正しく追加されていますが返されません。変換で同じ関数を使用すると、 'new'列がすでにdfに存在する場合でも、 'オンザフライで'特定のレベルで、またはグループ化する前に、新しい列を追加する方法はありますか？

サンプルDFを生成するためのコードは次のとおりです。

import pandas, itertools 

first = ['A','B'] 
second = ['foo','bar','baz'] 
third = ['dog', 'cat'] 

tuples = [] 
for tup in itertools.product(first, second, third): 
    tuples.append(tup) 

columns = pandas.MultiIndex.from_tuples(tuples, names=['First','Second','Third']) 

data = np.random.randint(0,10,(5, 12)) 
df = pandas.DataFrame(data, columns=columns)

そして、私の回避策：

dfnew = None 
grouped = df.groupby(by=None, level=[0,2], axis=1) 

for name, group in grouped: 
    newparam = group.xs('foo', axis=1, level=1) + group.xs('bar', axis=1, level=1) 

    dftmp = group.join(pandas.DataFrame(np.array(newparam), columns=pandas.MultiIndex.from_tuples([(group.columns[0][0], 'new', group.columns[0][2])], names=['First','Second', 'Third']))) 

    if dfnew is None: 
     dfnew = dftmp 
    else: 
     dfnew = pandas.concat([dfnew, dftmp], axis=1) 

print dfnew.sort_index(axis=1)

WICHは動作しますが、各グループの新しいデータフレームを作成し、「手動」のレベルを割り当てることです本当に悪い習慣。

これを行う適切な方法は何ですか？私は同様の質問を扱ういくつかの記事を見つけましたが、これらのすべてには1つのレベルのカラムしかありませんでした。

出典

2012-10-18 Rutger Kassies

グループ化された値に基づいて新しい列を作成すると、変換のための作業ですしかし、tranformが複数の列を出力できるかどうかは分かりません。あなたと同じ方法でこれに取り組んでいきます。ボンネットの下にあるBTWでは、トランスフォームによってグループごとに新しいフレームが作成され、最後にすべて連結されます。 –

適用/変換メカニズムで構造化された値とブロードキャストを列に出力できます（つまり、適用された関数によってタプルが生成された場合、タプルが単一の列のアトム要素になるのではなく別々の列に入ります）。それが構文的な砂糖だけであっても、素晴らしい機能になります。おそらく別のメソッド名を使って、意図を明確にする（applyforkかそのようなもの、またはキーワードsplitseq = Trueを適用する）。 – meteore

APIの弱点は間違いありませんが、あなたのやりたいことをより簡単に行うために、私の頭の上からはわかりません。

In [20]: df 
Out[20]: 
First  A        B       
Second foo  bar  baz  foo  bar  baz  
Third dog cat dog cat dog cat dog cat dog cat dog cat 
0   7 2 9 3 3 0 5 9 8 2 0 6 
1   1 4 1 7 2 3 2 3 1 0 4 0 
2   6 5 0 6 6 1 5 1 7 4 3 6 
3   4 8 1 9 0 3 9 2 3 1 5 9 
4   6 1 1 5 1 2 2 6 3 7 2 1 

In [21]: rdf = df.stack(['First', 'Third']) 

In [22]: rdf['new'] = rdf.foo + rdf.bar 

In [23]: rdf 
Out[23]: 
Second   bar baz foo new 
    First Third      
0 A  cat  3 0 2 5 
     dog  9 3 7 16 
    B  cat  2 6 9 11 
     dog  8 0 5 13 
1 A  cat  7 3 4 11 
     dog  1 2 1 2 
    B  cat  0 0 3 3 
     dog  1 4 2 3 
2 A  cat  6 1 5 11 
     dog  0 6 6 6 
    B  cat  4 6 1 5 
     dog  7 3 5 12 
3 A  cat  9 3 8 17 
     dog  1 0 4 5 
    B  cat  1 9 2 3 
     dog  3 5 9 12 
4 A  cat  5 2 1 6 
     dog  1 1 6 7 
    B  cat  7 1 6 13 
     dog  3 2 2 5 

In [24]: rdf.unstack(['First', 'Third']) 
Out[24]: 
Second bar     baz     foo     new    
First  A   B   A   B   A   B   A   B  
Third cat dog cat dog cat dog cat dog cat dog cat dog cat dog cat dog 
0   3 9 2 8 0 3 6 0 2 7 9 5 5 16 11 13 
1   7 1 0 1 3 2 0 4 4 1 3 2 11 2 3 3 
2   6 0 4 7 1 6 6 3 5 6 1 5 11 6 5 12 
3   9 1 1 3 3 0 9 5 8 4 2 9 17 5 3 12 
4   5 1 7 3 2 1 1 2 1 6 6 2 6 7 13 5

そして、あなたはもちろん、あなたの心の内容に並べ替えることができます：ここでは、少なくともあなたの例のために、この約1つの簡単な方法です

In [28]: rdf.unstack(['First', 'Third']).reorder_levels(['First', 'Second', 'Third'], axis=1).sortlevel(0, axis=1) 
Out[28]: 
First  A          B         
Second bar  baz  foo  new  bar  baz  foo  new  
Third cat dog cat dog cat dog cat dog cat dog cat dog cat dog cat dog 
0   3 9 0 3 2 7 5 16 2 8 6 0 9 5 11 13 
1   7 1 3 2 4 1 11 2 0 1 0 4 3 2 3 3 
2   6 0 1 6 5 6 11 6 4 7 6 3 1 5 5 12 
3   9 1 3 0 8 4 17 5 1 3 9 5 2 9 3 12 
4   5 1 2 1 1 6 6 7 7 3 1 2 6 2 13 5

出典

2012-10-20 15:31:46

ありがとうウェス、これははるかに良いです。 –

は、私がこのような構造のデータフレームを持つ階層的なデータフレーム

答えて

関連する問題