グループ化された特定のオブジェクトのヒストグラムを作成しようとしています。したがって、いくつかの文脈を与えるために、私はメインのデータフレームdf
を持っており、私はそれをいくつかの値に基づいて照会し、それをdf_q
に割り当てます。今度はdf_q
を使って、私はこのグループidのインデックスを作成します。私が今したいのは、特定の列の各項目の値の数を取得することです。私が持っているので、場合:データフレームの指定された列にある各アイテムの値の数を取得し、インデックスを維持するにはどうすればよいですか?
In [128]: df_q
Out[128]:
annual_base_delta_range_ten annual_base_delta_range_three
row_id
10010 3 5
10010 5 11
10010 6 15
10010 5 11
10010 5 11
10010 5 12
10010 6 14
10010 6 16
10010 4 9
10010 4 9
私は、各シリーズに、このような何かを行うことができることを知っている:
In [129]: df_q.annual_base_delta_range_ten.value_counts()
Out[129]:
5 4
6 3
4 2
3 1
Name: annual_base_delta_range_ten, dtype: int64
しかし、私はのdf_q
(すなわち、同じインデックスのように見えるのデータフレームを持っていると思いますrow_id
と同じ列名と、2つの新しい値の列が追加されています)。
delta_ten | delta_10_count | delta_three | delta_three_count
3 1 5 1
4 2 9 2
5 4 11 3
など...と同様に、すべて同じROW_IDと:ここ
編集
は私が見えるように私の望ましい結果を希望するものです。
グレートを与える、私は、マージが行われる必要がありますが、私はちょうどそれを得ることができませんでした知っていました。ただもう1つの質問ですが、重複したアイテムを削除することをおすすめしますか?私は隣人(delta_range_three)を満たすためにもっと空の列を持っても構わないが、余分な数字はちょうどunpythonicに見える。 – Maksim
@Maksim、申し訳ありませんが、分かりません。何を重複して言及していますか?質問データをサンプルデータの出力に更新できますか? –
私が言及しているのは、同じ数の値が重複していることです。理想的には、それぞれの横に数えられたソートされた列を持つだけです。だから* _range_tenは3,4,5,6のいずれか1つしか持っていないはずです。隣の数の列に1,2,4,3があるはずです。 – Maksim