タイトルが完全であるかどうかはわかりません。 私はMachine Learningを初めて使い、Scikitと意思決定ツリーを使用しています。Python - 意思決定ツリーとユニークなラベル/機能の処理
ここで私がしたいことがあります。私はすべての入力を受け取り、クライアントIDである一意の機能を含める必要があります。現在、クライアントIDは一意であり、決定木の分析で機能が通常の方法で集計することはできません。ここで起こっていることは、ツリーがクライアントIDを他の整数値として取得していることです。たとえば、クライアントIDが430未満のものは、430以上のものとは別のパスに入ります。これは正しくなく、私が望むものではありませんする。私がしたいことは、特定のフィールドをこのような方法で分析することができず、各クライアントが独自の支店を持つことを意思決定ツリーに理解させることです。これは決定木で可能ですか?
私はいくつかの回避策を用意していますが、そのうちの1つはクライアントごとに固有の決定木を作成することですが、これを訓練するのは悪夢です。もう1つの回避策を講じて、800人のクライアントがいるとしたら、ビットフィールドを持つ800個の機能を作成しますが、これも狂っています。
はい、2番目のオプション(1つのホットエンコーディング)はあなたの説明のために私が提案するものです –
これは非常に多くの作業のようですが、何千ものクライアントに展開する必要がある場合は、方法? – HMan06
私はパンダを使用しているので、get_dummies関数はおそらく私の最善の策でしょうか? – HMan06