私は巨大なデータセット(2653,17)を持っています。私は、value_countsメソッドから推測しているように、2つの列が多少関連しているが正確ではないことに気づいた。私が意味するのは、対応するエントリのほとんどがMであるか、CのNaNであるということです。これを確認したり、このように関連するエントリの数を計算する方法はありますか? 私はそれらを数値に変換し、相関技術を使ってみましたが、ここではうまくいかないと思います。データセットの列をPythonと比較する
1
A
答えて
0
クロス集計は2つのカテゴリ変数間の関係を参照するには、最初の方法でなければなりません。それはまた、非常に参考にすることができ見える化
sex M
customer_type
C 3 0
I 0 4
df = pd.DataFrame(data = {'customer_type': ['I','I','I','C','C','C','I'],
'sex': ['M','M','M','','','','M']})
print(df)
print(pd.crosstab(df.customer_type, df.sex))
出力を
+0
クロスタブ方法では、エラーのため「クロス集計方法は複数回発生します。レベル番号を使用する」というエラーのため、データセットに完全な画像が表示されません。 train.sex、train.customer_type、marginins = True、dropna = False)。これは、https://github.com/pandas-dev/pandas/issues/13279とhttps://github.com/pandas-dev/pandas/issues/10772で作成されたクロス集計のバグだと思います – deadcode
関連する問題
- 1. データセットをループし、別のデータセットと値を比較する
- 2. 同じデータセット内の2つの列を比較するR
- 3. Pythonの配列エレメント比較
- 4. Pythonの文字列比較
- 5. Python文字列の比較
- 6. 文字列と数値の比較 - Python
- 7. Pythonとファイルの比較を比較する
- 8. あるテーブル内のデータセットを別のテーブルと比較する
- 9. タプルとPythonのintを比較する
- 10. 別の列の同じ行をPythonと比較するには?
- 11. 文字列の文字を辞書のpythonと比較する
- 12. 2つの配列とPythonのForループを比較する
- 13. ユニコードとPythonの文字列を比較する方法
- 14. Python - 文字列とリストのランダムな項目を比較する
- 15. ユニコードの要素リストと文字列を比較するpython splinter
- 16. Python - 文字列をUnicodeの置換文字と比較する
- 17. Pythonを使用して2つのデータセットの変数を比較する
- 18. 豚の2つのデータセットの比較
- 19. Haskellと機能的にデータセットを比較する
- 20. 2次元配列と1次元配列の比較を比較する
- 21. Mysql - Pythonでクエリ結果と文字列を比較する
- 22. 文字列をpython enumと比較するには?
- 23. 文字列とリストを比較するPythonプログラミング
- 24. Pythonの大規模配列の比較
- 25. 大きなデータセットのLodash 2d配列の比較
- 26. Python辞書キー(クラスオブジェクト)複数の比較関数との比較
- 27. Python/Pandas - 文字列の比較
- 28. 複数値の文字列比較python
- 29. のPython:文字列&リストre.sub比較
- 30. Pythonは:比較
このSOの投稿は良いplかもしれません開始するエース - https://stackoverflow.com/questions/25571882/pandas-columns-correlation-with-statistical-significance ASFAIKでは、これらの文字をユニークな数値に変換して、これらのテストが機能するようにする必要があります。 – TheF1rstPancake
'pd.crosstab(df.customer_type、df.sex)'を使ってタブをクロスすることはできません。 –
注意しなければならないもう一つのことは、あなたの「性別」の列には多くのバリエーションがないことです。だから、それは非常に役に立つとは思わないでしょう。しかし、それはあなたの現在の問題の範囲外かもしれません。 – TheF1rstPancake