パンダ：データフレームの重複エントリの平均値を計算する

私は、最初のカラムに重複したエントリを含むpythonとpandasでデータフレームを扱っています。データフレームは次のようになります。パンダ：データフレームの重複エントリの平均値を計算する

sample_id qual percent 
0 sample_1  10  20 
1 sample_2  20  30 
2 sample_1  50  60 
3 sample_2  10  90 
4 sample_3  100  20

最初の列内に重複したエントリを識別し、後続の列の平均値を計算するものを書きたいと思います。私はすべての午後、この問題で苦労されていますし、任意の助けをいただければ幸いです

sample_id qual percent 
0 sample_1  30  40 
1 sample_2  15  60 
2 sample_3  100  20

：理想的な出力は次のようなものになるだろう。

2016-10-07 DDRRpy

期待される出力を再度確認できますか？平均値のようには見えません。 – 3kt

あなたは正しいです。私は正しい平均値を含むようにデータフレームを変更しました。ありがとう！ – DDRRpy

groupbysample_id列とmean

df.groupby('sample_id').mean().reset_index()
または
df.groupby('sample_id', as_index=False).mean()

はgetを使用します

2016-10-07 14:28:38 piRSquared

Groupbyが動作します。

data.groupby('sample_id').mean()

reset_index()を使用して、正確に表示することができます。

2016-10-07 14:33:43 kinjo

答えて