2017-10-25 20 views
0

私は複数の条件パンダDATAFRAME - Pythonの

​​

の下にカウントするようにしたいと、私は下に次のデータフレームを持っている「トピック」のリストを持っています。私は希望

TEXT  | USER | ID 
----------|---------|------ 
Topic 1 | User 1 | 100 
Topic 2 | User 1 | 100 
Topic 3 | User 2 | 150 
Topic 4 | User 2 | 150 
Topic 2 | User 2 | 150 
Topic 1 | User 3 | 200 
Topic 3 | User 3 | 200 
Topic 2 | User 1 | 100 
Topic 4 | User 2 | 150 

期待/所望の出力は、私はキーとして私のtopic_listを使用して対応するテキスト量を持つユニークなユーザーのIDの合計を知りたい場合は、下記以下の通りです。

TEXT  | ID 
----------|------- 
Topic 1 | 300 
Topic 2 | 250 
Topic 3 | 350 
Topic 4 | 150 

これをPython 2.7で行う方法はありますか? + groupby

答えて

2

使用drop_duplicates

df.drop_duplicates(['TEXT','USER']).groupby('TEXT', as_index=False).ID.sum() 

     TEXT ID 
0 Topic 1 300 
1 Topic 2 250 
2 Topic 3 350 
3 Topic 4 150