だから我々はこのようなデータのいくつかのセットを持っている:我々はデータフレームでこれを持っている場合、それが何を非常に簡単ですだから今のpythonパンダ再アソシエート非数値データを加算した後
email, name, price, quantity
[email protected], alan, 5.3, 2
[email protected], barbara, 3.99, 1
[email protected], barbara, 1, 1
...
[email protected], zed, 3, 1
を
df.groupby(['email']).sum()
price quantity
email
[email protected] 5.3 2
[email protected] 4.99 2
私たちは数字の興味深い部分は持っていますが、テキスト部分はありません。どのようにしてテキスト部分を合計して合併することができますか?
だからこれの所望の最終状態は次のようなものになるだろう:
email, name, price_sum, quantity_sum
[email protected], alan, 5.3, 2
[email protected], barbara, 4.99, 2
...
[email protected], zed, 3, 1
で行くことができる所望の出力であなたの質問を編集してください。 「テキスト部分」をデータフレームにどのように表示したいですか? –
なぜ 'df.groupby(['name'、 'email']、as_index = False).sum()'だけではないのですか? –
ああ、これは単純化された例ですが、実際には住所などのようにこれに関連付けられた複数の文字列があります。私たちはまた、人々がいつも同じように電子メールを常に同じものにすることを「信頼」していますが、他のデータには一貫性がないかもしれません:住所の「西3番街」v「3番街」 –