私は、データセットの各人物に関連するメトリックを計算する必要のあるデータセットを持っています。例えば、私はこのPandasの他の列から特定の列のメトリックを計算する方法は?
id name age task_date task_venue money_earned
1 John 25 2016-05-01 A 100
2 Jane 28 2016-05-12 A 120
1 John 25 2016-05-03 B 150
3 Suse 21 2016-05-30 B 200
...
のように見えるデータとデータフレームを持って、私は何をする必要があることは、このようなようにTime Since Last Task
、Average Earnings
、Total Earnings
、Total Tasks Done
およびなどなど、一人一人John, Jane, Suse
のメトリックを計算します。
実際のデータセットは大きく(約1M行で、〜50〜75K人の列があります)、これは本質的に私が何をする必要があるのかを説明しています。
このデータフレームを取得し、その計算を行う最も効率的な方法は何でしょうか?私はパンダの機能を使うのが好きですが、別のデータフレームで結果を保存できる限り、純粋なPythonも動作しますか?
回答ありがとうございます。これは確かに正しい方向に私を指します。私が追加したいのは、通常の平均、合計、長さの代わりにカスタム関数が必要な場合、計算に1つ以上の列を使用することです。私のアプローチは何か?基本的には、一度に1つずつメトリックを計算し、最終的にはすべてをマージしたいと思うでしょうか? – sfactor
私はカスタム関数を追加します - 3日はグループあたりの最小日時に追加されます。 – jezrael