私はイベントデータを持つデータフレームを持っています。私は2つの列を持っています:プライマリとセカンダリ。プライマリとセカンダリの両方の列には、タグのリスト([Funイベント]、[Dance party]など)が含まれています。パンダのカスタムダミーコーディング
primary secondary combined
['booze', 'party'] ['singing', 'dance'] ['booze', 'party', 'singing', 'dance']
['concert'] ['booze', 'vocals'] ['concert', 'booze', 'vocals']
Iが非観察、プライマリ列は1つのコードを有するように、コードにデータをダミーする列は、0を有し、第二列の値は、0.5の値を有します。そのような:ここで
combined booze party singing dance concert vocals
['booze', 'party', 'singing', 'dance'] 1 1 .5 .5 0 0
['concert', 'booze', 'vocals'] .5 0 0 0 1 .5