私はカテゴリ変数を持つデータセットを持っています。私はカテゴリxの量に応じて0:xから各カテゴリを符号化しました。私は変数(数値とカテゴリの両方)と目標変数との間の相関関係を見つけようとしています(これはカテゴリ変数ですが、noの場合は0、yesの場合は1にコード化されています)。数字でエンコードされたカテゴリ変数間の相関関係を見つけることは?
私は、すべての変数(約17があります)の相関のためにこのコードを実行することができました。それはうまくいくようですが、相関が正しいかどうか質問します。
print(df['previous'].corr(df['y']))
すべてのヘルプは素晴らしいことだ:私はちょうど私がこのことについて、正しい方法をつもりだことを確実にしたい、前に設定私のデータではカテゴリ変数との相関を計算していません!
私は実際に自分のデータセットに対してSVMアルゴリズムを実行しています。カテゴリに基づいてすべてのカテゴリ変数を手動で再コード化しました。私はこの間違ったことについて行きましたか?さらに、これらのダミー変数には何が含まれているかについて詳しく説明できますか?そして、これらのダミー変数と目標変数yとの間の相関関係はありますか? – rmahesh
get_dummiesのドキュメントとhttps://en.wikipedia.org/wiki/Dummy_variable_(statistics)のためのhttps://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.htmlダミーヴァルスの理解のためのwikiリンク –
ありがとうございます。したがって、これらのダミー変数はマルチクラスの機能で動作しますか?カテゴリ変数の1つは、曜日です。ですから、これらのダミー変数列を作成すると、このダミー変数列とターゲット変数yの統計が実行されます。 – rmahesh