2017-07-12 17 views
-4

私は30の変数を持つデータフレームを持っており、その中のどの変数が相関しているかを見たいと思います。私はdf.corr()を使用しましたが、結果には大きな行列が含まれているため理解が難しいようです。多数の変数間の相関

ヒートマップを構築する方法や、相関係数がある固定値より大きいか小さい値の相関ペアを得る方法はありますか(たとえば-r < -0.8 & r> 0.8など)。

+3

あなたは役に立ち出力がどうなるかについて、もう少し具体的なことができない限り、あなたの質問は、おそらくフラグが付けられてしまいます。あなたはヒートマップを望んでいるのでしょうか、あるいは最高の_n_相関ペアだけを返すでしょうか?主観的な提案を求めるのではなく、より直接的にするようにしてください。 –

+0

あなたの質問を削除し、もっと鮮明な方法で再度質問することをお勧めします。 – piRSquared

+0

あなたが望むものに依存して、各変数をお互いに相関させたり、PCAまたは自動エンコーダーを使って次元を縮小したりすることができます。 – Dadep

答えて

0

シーボーンパッケージは、ヒートマップを作成する優れた機能を備えています。 http://seaborn.pydata.org/index.html

以下は、相関行列のヒートマップを生成するサンプルコードです。

df= pd.DataFrame(np.random.randint(1,4,[72,5])) 
df.columns = ['col1','col2','col3','col4','col5'] 
import seaborn as sns 
sns.heatmap(df.corr()) 
plt.yticks(rotation= 0) 
plt.xticks(rotation=90) 

enter image description here

関連する問題