私はこの(しかし、長い...)のように見えるデータフレーム持っている:データフレームをループし、列間の相関を計算して列の一意の値を求めますか?
imd code sum
0 1 010101 1048171
1 2 010101 911003
2 3 010101 852023
3 4 010101 790893
4 5 010101 923344
5 6 010101 681473
6 7 010101 600303
7 8 010101 497439
8 9 010101 496209
9 10 010101 388457
10 1 010102 26284506
11 2 010102 23567345
12 3 010102 24933988
13 4 010102 22762737
14 5 010102 23205722
15 6 010102 21874259
16 7 010102 21604496
17 8 010102 16723338
18 9 010102 17691183
19 10 010102 15202808
今、私はデータフレームでcode
のすべてのユニークな値のためimd
とsum
間の相関を計算しますが。したがって、この例では、コード010102
のコード010101
ためimd
とsum
との間の相関関係、など
は、その後、私は最高の相関関係を持つコードのランク付けリストを生成します。だからこのようなもの:
code correlation
010102 0.44
010101 0.38
....
これを行うにはどうすればよいですか?ユニークなコードであるデータフレームの各スライスのために繰り返しそれを行うにはどのように
df[['imd','sum']].corr()
ではなく、私は、全体のデータフレームのためimd
とsum
との間の相関を計算する方法を知っています。
コードのユニークな値ごとに新しいデータフレームを作成し、それぞれについてimd
とsum
の間の相関を計算し、次に相関値を保持する中間データ構造を作成することができましたか?