私は、NBA選手が以前のすべてのシーズンの試合でどれだけうまく演奏したかを予測するバスケットボールモデルを作成しています。 NBAチームには約10人のプレイヤーがいます。今シーズンは30チームが約25試合をプレイしていますので、私のデータフレームにはこの時点で約10 * 30 * 25 = 7,500回の観測があります。私は毎日自分のモデルを実行し、翌日にどのくらいプレイするのかを予測します。したがって、明日は約10 * 30 = 300の予測を行います。GBMの処理要因変数は、あまりにも多くの要因を心配しました
私の質問はこれです - 現在私は予測のために使用している約50列/フィーチャ/ x変数を持っています。これらはすべて数値変数です(スコアの平均点数、平均リバウンド数など)。しかし、私は自分のモデルが各行に対応するプレイヤーを知るのに役立つと思います。つまり、私は51番目の列、プレーヤーの名前を含む因子変数を渡したいと思います。私はオンラインでGBMが要因変数を扱うことができることを読んでいますが、内部的に「ダミー化」していますが、300人のプレイヤーがうまく機能しないことが心配です。すべてのプレイヤー名の因子変数を渡して、最終的にモデルを傷つけるかどうかは、内部で作成するダミー変数の数が多いか、これでいいですか?
my_df
PLAYER FG FGA X3P X3PA FT FTA
1042 Andre Drummond 6 16 0 0 6 10
17747 Marcus Morris 6 19 1 4 5 6
14861 Kentavious Caldwell-Pope 7 14 4 7 3 3
7976 Ersan Ilyasova 6 12 3 6 1 2
22401 Reggie Jackson 4 10 2 4 5 5
24475 Stanley Johnson 3 10 1 3 0 0
24649 Steve Blake 1 6 1 5 0 0
12489 Jodie Meeks 1 4 0 0 0 0
1955 Aron Baynes 3 5 0 0 0 0
21500 Paul Millsap 7 15 2 6 3 4
この部分は私には分かりません。「私のモデルは、各行がどのプレイヤーに対応しているかを知る上で役立つと思います。さもなければあなたのモデルは誰が予測されたのか分からないでしょうか?あなたはあなたのデータの代表的なサンプルを投稿できますか?一般的に、GBMはカテゴリ変数を扱うことができますが、ここで必要なことはわかりません。 –
私は、私のデータフレームがどのように見えるかの短い例を添付しました。私はGBMに因子としてPLAYER列を渡すことを考えています。 – Canovice
私はちょうどそれをテストしてパフォーマンスを見ることができると知っていますが、1つの列を表す300のダミー変数を作成するGBMがモデルにどのように影響するかを直感的に理解しようとしています – Canovice