私は、カテゴリ変数(バイナリ)と連続変数を含むデータセットを持っています。私は連続変数を予測するための線形回帰モデルを適用しようとしています。誰かが私に、カテゴリ変数と連続目標変数の間の相関関係をチェックする方法を教えてもらえますか?Pythonの連続変数とカテゴリ変数の間の相関をチェックする方法は?
現在のコード:
import pandas as pd
df_hosp = pd.read_csv('C:\Users\LAPPY-2\Desktop\LengthOfStay.csv')
data = df_hosp[['lengthofstay', 'male', 'female', 'dialysisrenalendstage', 'asthma', \
'irondef', 'pneum', 'substancedependence', \
'psychologicaldisordermajor', 'depress', 'psychother', \
'fibrosisandother', 'malnutrition', 'hemo']]
print data.corr()
lengthofstayから離れ変数のすべてがカテゴリです。これはうまくいくはずですか?
を試してみましたか?コードを提供し、問題が発生している場所を明確に記述します。 –
PythonでANOVAを探します(Rでは "aov")。これは、異なるグループ(カテゴリー値)の平均(連続値)に有意な差があるかどうかを識別するのに役立ちます。グループが2つしかない場合は、両面t.test(ペアまたはペアなし)を使用します。 – Rockbar
このチュートリアルに従ってください。私はそれがあなたが探しているものだと思う:http://www.marsja.se/four-ways-to-conduct-one-way-anovas-using-python/ – Rockbar