2つの列を持つデータセットがあります。最初の列には一意のユーザーIDが含まれ、2番目の列にはこれらのIDに関連付けられた属性が含まれます。例えば2つの文字列の重複を一意にカウントする
:私が知りたいのは何
------------------------
User ID Attribute
------------------------
1234 blond
1235 brunette
1236 blond
1234 tall
1235 tall
1236 short
------------------------
は、属性間の相関関係です。上記の例では、ブロンドの高さも何回知っていますか?私の所望の出力は次のようになります。
------------------------------
Attr 1 Attr 2 Overlap
------------------------------
blond tall 1
blond short 1
brunette tall 1
brunette short 0
------------------------------
私はデータをピボットして出力を得るためにパンダを使用してみましたが、私のデータセットは、属性の数百を持っているとして、私の現在の試みは現実的ではありません。
df = pandas.read_csv('myfile.csv')
df.pivot_table(index='User ID', columns'Attribute', aggfunc=len, fill_value=0)
私の現在の出力:
--------------------------------
Blond Brunette Short Tall
--------------------------------
0 1 0 1
1 0 0 1
1 0 1 0
--------------------------------
は、私が欲しいの出力を取得する方法はありますか?前もって感謝します。
Iあなたの最初のステップは、これをより良い関係秩序に入れることだと考えてください。これらの属性をヘアカラー/高さ属性に論理的に分割することはありません – brianpck
確かに!私は答えを試みたが、これらの区別をすることができなかった –