0
私は2つのデータフレームをマージし、GIVEN IDの過去の観測値の平均値を取る3つの列を計算します。ここ複雑なマージ・パンダnumpyと集計
は一例であり:
contracts_data = np.array([
[1, '2015-01-01', 15000],
[2, '2015-01-01', 1500],
[1, '2015-08-01', 16000],
[2, '2015-08-01', 1800],
[1, '2015-10-01', 17000],
[1, '2016-01-01', 18000],
[1, '2016-03-01', 20000]])
historique_data = np.array([[1, '2015-01-01'],
[2, '2015-01-01'],
[1, '2015-02-01'],
[2, '2015-02-01'],
[1, '2015-03-01'],
[2, '2015-03-01'],
[1, '2015-04-01'],
[2, '2015-04-01'],
[1, '2015-05-01'],
[2, '2015-05-01'],
[1, '2015-06-01'],
[2, '2015-06-01'],
[1, '2015-07-01'],
[2, '2015-07-01'],
[1, '2015-08-01'],
[2, '2015-08-01'],
[1, '2015-09-01'],
[2, '2015-09-01'],
[1, '2015-10-01'],
[2, '2015-10-01'],
[1, '2015-11-01'],
[2, '2015-11-01'],
[1, '2015-12-01'],
[2, '2015-12-01'],
[1, '2016-01-01'],
[2, '2016-01-01'],
[1, '2016-02-01'],
[2, '2016-02-01'],
[1, '2016-03-01'],
[2, '2016-03-01'],
[1, '2016-04-01'],
[2, '2016-04-01'],
[1, '2016-05-01'],
[2, '2016-05-01']])
historique_data_expected = np.array([[1, '2015-01-01', 15000],
[2, '2015-01-01', 1500],
[1, '2015-02-01', 15000],
[2, '2015-02-01', 1500],
[1, '2015-03-01', 15000],
[2, '2015-03-01', 1500],
[1, '2015-04-01', 15000],
[2, '2015-04-01', 1500],
[1, '2015-05-01', 15000],
[2, '2015-05-01', 1500],
[1, '2015-06-01', 15000],
[2, '2015-06-01', 1500],
[1, '2015-07-01', 15000],
[2, '2015-07-01', 1500],
[1, '2015-08-01', 15500],
[2, '2015-08-01', 1650],
[1, '2015-09-01', 15500],
[2, '2015-09-01', 1650],
[1, '2015-10-01', 16000],
[2, '2015-10-01', 1650],
[1, '2015-11-01', 16000],
[2, '2015-11-01', 1650],
[1, '2015-12-01', 16000],
[2, '2015-12-01', 1650],
[1, '2016-01-01', 16500],
[2, '2016-01-01', 1650],
[1, '2016-02-01', 16500],
[2, '2016-02-01', 1650],
[1, '2016-03-01', 17200],
[2, '2016-03-01', 1650],
[1, '2016-04-01', 17200],
[2, '2016-04-01', 1650],
[1, '2016-05-01', 17200],
[2, '2016-05-01', 1650]])
- 最初の列が結合列です。
- 2番目は日付です
- 3は給料です。
私は3つのデータセットに参加したいと思います。私は給与の列に同じIDの過去の給与の平均を持っています。
これは、pandasとnumpy、または別のフレームワークを使用してどのように行うことができますか?
ありがとうございます。
===== UPDATE ====
私は2つのデータフレームのいくつかのより簡単な例と予想される結果、ここで追加します。
ID DATE SALARY
1 2015-01-01 1500
2 2015-01-01 1000
1 2015-03-01 1600
1 2015-04-01 1700
ID DATE
1 2015-01-01
2 2015-01-01
1 2015-02-01
2 2015-02-01
1 2015-03-01
2 2015-03-01
1 2015-04-01
2 2015-04-01
期待される結果:
ID DATE
1 2015-01-01 1500
2 2015-01-01 1000
1 2015-02-01 1500
2 2015-02-01 1000
1 2015-03-01 1550
2 2015-03-01 1000
1 2015-04-01 1600
2 2015-04-01 1000
他の言葉では、2つのデータセットを結合するときに過去の平均給与を計算したい
このデータは有用です。私はまだ非常に混乱しています。あなたが探しているものの例を提供してください。また、http://stackoverflow.com/help/mcve投稿方法のガイダンスについてもお読みください – piRSquared
小規模な例で私の更新をご覧ください – Nabil
@Nabil私はあなたの更新された例に間違いがあると思います。 2番目のdfには給与情報がないので、平均がどこから来るのかわかりません。 – cd98