2016-10-07 15 views
1

私は、最初のカラムに重複したエントリを含むpythonとpandasでデータフレームを扱っています。データフレームは次のようになります。パンダ:データフレームの重複エントリの平均値を計算する

sample_id qual percent 
0 sample_1  10  20 
1 sample_2  20  30 
2 sample_1  50  60 
3 sample_2  10  90 
4 sample_3  100  20 

最初の列内に重複したエントリを識別し、後続の列の平均値を計算するものを書きたいと思います。私はすべての午後、この問題で苦労されていますし、任意の助けをいただければ幸いです

sample_id qual percent 
0 sample_1  30  40 
1 sample_2  15  60 
2 sample_3  100  20 

:理想的な出力は次のようなものになるだろう。

+1

期待される出力を再度確認できますか?平均値のようには見えません。 – 3kt

+0

あなたは正しいです。私は正しい平均値を含むようにデータフレームを変更しました。ありがとう! – DDRRpy

答えて

3

groupbysample_id列とmean

df.groupby('sample_id').mean().reset_index()
または
df.groupby('sample_id', as_index=False).mean()

はgetを使用します

enter image description here

1

Groupbyが動作します。

data.groupby('sample_id').mean() 

reset_index()を使用して、正確に表示することができます。

関連する問題