モデルを1つのパーセンテージ(従属)変数に合わせるために選択しようとしている9つの連続する独立変数を持つデータセットがあります。スコア。R:重回帰の変数選択、パーセンテージ依存変数、重大な共線性
残念ながら、いくつかの変数の間に重大な共線性があることはわかっています。
私は変数選択のためのRでstepAIC機能を使用してみましたが、その方法は、奇妙な、変数は式に示されている順序に敏感なようだ...
ここに私のRコードは(です)それはパーセントデータだ/ C、私はスコアのためのロジット変換を使用B:
library(MASS)
library(car)
data.tst = read.table("data.txt",header=T)
data.lm = lm(logit(Score) ~ Var1 + Var2 + Var3 + Var4 + Var5 + Var6 + Var7 + Var8 + Var9, data = data.tst)
step = stepAIC(data.lm, direction="both")
summary(step)
何らかの理由で、私は式の冒頭に記載されている変数はstepAIC機能によって選択されてしまうことがわかった、とVar9を最初に(チルダの後に)リストすることで、結果を操作できます。
ここでモデルをフィッティングする方法として、より効果的(論争の少ないもの)はありますか?私は実際に線形回帰を使用して死んでいるわけではありません。唯一必要なことは、9つの変数のどれが本当にScore変数のバリエーションを推進しているのかを理解できることです。これは、これらの9変数の共線性の可能性を考慮した方法であることが好ましい。
私はこれは難しい質問ですけど、私は本当にあなたがそれを見て時間を割いて感謝...
ベスト、 ジュリー
Julie、これはここでは異論はありませんが、stackoverflow.comとまったく同じ会社のサイトであるstats.stackexchange.comでもっと洗練された回答が得られると思います。必要に応じて、そこに自動的に移行されるように質問にフラグを付けることができます。 – TMS
こんにちはThomas - ありがとう。私は先に行ってstats.stackexchange.comで再転記しました。ありがとう! – Julie
Julie、いいえ、あなたはこれをしてはいけません、彼らはそれが好きではありません...それは移行のためにそれをフラグする方が良いです。 – TMS