2017-12-30 58 views
1

私は巨大なデータセット(2653,17)を持っています。私は、value_countsメソッドから推測しているように、2つの列が多少関連しているが正確ではないことに気づいた。私が意味するのは、対応するエントリのほとんどがMであるか、CのNaNであるということです。これを確認したり、このように関連するエントリの数を計算する方法はありますか? 私はそれらを数値に変換し、相関技術を使ってみましたが、ここではうまくいかないと思います。データセットの列をPythonと比較する

enter image description here

+1

このSOの投稿は良いplかもしれません開始するエース - https://stackoverflow.com/questions/2557188​​2/pandas-columns-correlation-with-statistical-significance ASFAIKでは、これらの文字をユニークな数値に変換して、これらのテストが機能するようにする必要があります。 – TheF1rstPancake

+2

'pd.crosstab(df.customer_type、df.sex)'を使ってタブをクロスすることはできません。 –

+1

注意しなければならないもう一つのことは、あなたの「性別」の列には多くのバリエーションがないことです。だから、それは非常に役に立つとは思わないでしょう。しかし、それはあなたの現在の問題の範囲外かもしれません。 – TheF1rstPancake

答えて

0

クロス集計は2つのカテゴリ変数間の関係を参照するには、最初の方法でなければなりません。それはまた、非常に参考にすることができ見える化

sex    M 
customer_type  
C    3 0 
I    0 4 

https://stats.stackexchange.com/questions/147721/which-is-the-best-visualization-for-contingency-tables

df = pd.DataFrame(data = {'customer_type': ['I','I','I','C','C','C','I'], 
      'sex': ['M','M','M','','','','M']}) 
print(df) 
print(pd.crosstab(df.customer_type, df.sex)) 

出力を

+0

クロスタブ方法では、エラーのため「クロス集計方法は複数回発生します。レベル番号を使用する」というエラーのため、データセットに完全な画像が表示されません。 train.sex、train.customer_type、marginins = True、dropna = False)。これは、https://github.com/pandas-dev/pandas/issues/13279とhttps://github.com/pandas-dev/pandas/issues/10772で作成されたクロス集計のバグだと思います – deadcode

関連する問題