2017-11-16 7 views
0

私はカテゴリ変数を持つデータセットを持っています。私はカテゴリxの量に応じて0:xから各カテゴリを符号化しました。私は変数(数値とカテゴリの両方)と目標変数との間の相関関係を見つけようとしています(これはカテゴリ変数ですが、noの場合は0、yesの場合は1にコード化されています)。数字でエンコードされたカテゴリ変数間の相関関係を見つけることは?

私は、すべての変数(約17があります)の相関のためにこのコードを実行することができました。それはうまくいくようですが、相関が正しいかどうか質問します。

print(df['previous'].corr(df['y'])) 

すべてのヘルプは素晴らしいことだ:私はちょうど私がこのことについて、正しい方法をつもりだことを確実にしたい、前に設定私のデータではカテゴリ変数との相関を計算していません!

答えて

1

カテゴリ変数の中で相関関係を見つけるのは、それらをダミーにすることです。 ...

pd.get_dummies(df['Categorical_Column']) 

一度行われ、相関関係を取得し、その後dummified列から1列を削除して - ターゲット変数は、(それ私バイナリので)、複数のクラスを持つカテゴリ変数をdummifiedする必要が細かいですが

+0

私は実際に自分のデータセットに対してSVMアルゴリズムを実行しています。カテゴリに基づいてすべてのカテゴリ変数を手動で再コード化しました。私はこの間違ったことについて行きましたか?さらに、これらのダミー変数には何が含まれているかについて詳しく説明できますか?そして、これらのダミー変数と目標変数yとの間の相関関係はありますか? – rmahesh

+1

get_dummiesのドキュメントとhttps://en.wikipedia.org/wiki/Dummy_variable_(statistics)のためのhttps://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.htmlダミーヴァルスの理解のためのwikiリンク –

+0

ありがとうございます。したがって、これらのダミー変数はマルチクラスの機能で動作しますか?カテゴリ変数の1つは、曜日です。ですから、これらのダミー変数列を作成すると、このダミー変数列とターゲット変数yの統計が実行されます。 – rmahesh

0

カテゴリデータの相関アナログは、クロス集計と呼ばれます(データのコンティンジェンシーテーブルがあります)。あなたはpandas.crosstabを使ってパンダでそれを行うことができます。

+0

答えをありがとう。だから、クロス集計を見て、私はすべてのカテゴリー変数のための列を設定し、私のためにこのエンコーディングを行いますか? – rmahesh

関連する問題