私は連続したものと一緒に私のデータにいくつかのカテゴリー的な特徴があります。カテゴリフィーチャを他の連続した生き物とともにラベルとの相関関係を見つけるためにホットエンコードすることは、良いか絶対的に悪い考えですか?カテゴリの特徴相関
答えて
カテゴリ変数をワンホットエンコードすることなく相関係数を計算する方法があります。 Cramers V統計は、カテゴリ変数の相関を計算するための1つの方法です。それは以下のように計算することができる。以下のリンクが参考になります。 Using pandas, calculate Cramér's coefficient matrix他の連続値を持つ変数の場合は、cut
をpandas
とすることで分類できます。
import pandas as pd
import numpy as np
import scipy.stats as ss
import seaborn as sns
tips = sns.load_dataset("tips")
tips["total_bill_cut"] = pd.cut(tips["total_bill"],
np.arange(0, 55, 5),
include_lowest=True,
right=False)
def cramers_v(confusion_matrix):
""" calculate Cramers V statistic for categorial-categorial association.
uses correction from Bergsma and Wicher,
Journal of the Korean Statistical Society 42 (2013): 323-328
"""
chi2 = ss.chi2_contingency(confusion_matrix)[0]
n = confusion_matrix.sum()
phi2 = chi2/n
r, k = confusion_matrix.shape
phi2corr = max(0, phi2 - ((k-1)*(r-1))/(n-1))
rcorr = r - ((r-1)**2)/(n-1)
kcorr = k - ((k-1)**2)/(n-1)
return np.sqrt(phi2corr/min((kcorr-1), (rcorr-1)))
confusion_matrix = pd.crosstab(tips["day"], tips["time"]).as_matrix()
cramers_v(confusion_matrix)
# Out[10]: 0.93866193407222209
confusion_matrix = pd.crosstab(tips["total_bill_cut"], tips["time"]).as_matrix()
cramers_v(confusion_matrix)
# Out[24]: 0.16498707494988371
返信ありがとうございましたが、カテゴリ機能間の相関を計算する方法ではありませんでした。問題は次のとおりです。カテゴリのフィーチャにホットエンコーダを使用し、次にカテゴリと連続のフィーチャを含むフィーチャを使用して相関を計算することをお勧めします。 – user8653080
質問を誤解して申し訳ありません。 1つのホットエンコーディング機能と別の連続機能との間の相関を計算することは問題ではないと考えていますが、相関係数はそのカテゴリの1つの項目についての値にすぎないと思います。 – Keiku
ありがとうございました – user8653080
- 1. トラックを特徴付ける特徴
- 2. ウェブサイトデータベースデザインホテルの特徴
- 3. BW 6.XとBWCE(Container Edition)の主な相違点と特徴
- 4. Ruby on Rails - カテゴリとの多相関連
- 5. NLPの文字の特徴とNLPの単語の特徴
- 6. 特徴ベクトルパーティショニング
- 7. 特徴抽出
- 8. Jqueryメニューの特徴
- 9. クライアントの特徴[JAVA]
- 10. Scalaのスタッカブル特徴
- 11. 文字列/カテゴリの特徴(変数)による線形回帰分析?
- 12. 文章特徴ベクトル
- 13. スパーク - 特徴警告
- 14. が特徴生成
- 15. Laravel特徴:以下
- 16. 特徴検出アルゴリズムと特徴記述子アルゴリズム
- 17. CF8のCFFEEDの特徴は?
- 18. 顔の特徴の検出
- 19. ブラウザの特徴の集合
- 20. PHP型ヒントの特徴
- 21. Sklearnの特徴選択
- 22. 配列の特徴項目
- 23. Scikit-pandas、クロスバルーンスコアの特徴数
- 24. ベクトル/特徴の累積ビニング
- 25. 特徴点のOpenCV濃度
- 26. メモリ管理の特徴! NSNumberとの関係で
- 27. カイ2乗検定を用いた文書特徴行列の特徴選択
- 28. Sklearnのロジスティック回帰関数に特徴ベクトルを渡す
- 29. 特徴選択機能
- 30. AWS CloudFormation多領域特徴
バイナリまたはn-aryカテゴリ?順序付けられているか、順序付けられていないか? – smci
*「ラベルとの相関」* =>カテゴリレスポンス変数との相関性(何桁の値ですか?) – smci