2017-08-17 26 views
-1

私は統計情報とRで非常に新しいです。私のデータセットでは、目標変数は、飛行が遅れているのか、それともオンタイムであるのかを予測する飛行状況です。したがって、応答変数 - 遅延と時間 - には2つの値があります。したがって、を使用してロジスティック回帰モデルを構築するには、最初にターゲット変数を0と1に再コード化する必要がありますか?私はそれが0-Delayedである必要があり、Ontimeに対して1である必要があることを意味します。またはターゲット変数を因子として維持することはできますか?Rロジスティック回帰

基本的な質問は私には許してください。

+0

ありがとうございます。 プロジェクトのソリューションの1つでは、さらに進める前に数値に変換されているのを見ましたか?しかし、どのような推奨方法がありますか、あるいは、ほとんどの人が標準に従うと思いますか?私はRと統計を学び始めており、ベストプラクティスに興味があります。 – lak3567bo

+0

結論、変数が正しいクラス(例えば、 'factor')である限り、再コード化する必要はありません。 –

答えて

3
data(iris) 

Binary dependent variable: 
iris$Species_binary <- ifelse(iris$Species=="setosa", "no", "yes") 

これは要因として機能しますか?

glm(as.factor(iris$Species_binary)~iris$Sepal.Length, family="binomial") 

はい、あります。

Call: glm(formula = as.factor(iris$Species_binary) ~ iris$Sepal.Length, 
    family = "binomial") 

Coefficients: 
     (Intercept) iris$Sepal.Length 
      -27.829    5.176 

Degrees of Freedom: 149 Total (i.e. Null); 148 Residual 
Null Deviance:  191 
Residual Deviance: 71.84 AIC: 75.84 

それは論理(ブール)変数として動作しますか?

glm(I(iris$Species_binary=="yes")~iris$Sepal.Length, family="binomial") 
Call: glm(formula = I(iris$Species_binary == "yes") ~ iris$Sepal.Length, 
    family = "binomial") 

Coefficients: 
     (Intercept) iris$Sepal.Length 
      -27.829    5.176 

Degrees of Freedom: 149 Total (i.e. Null); 148 Residual 
Null Deviance:  191 
Residual Deviance: 71.84 AIC: 75.84 

はい、それはです。もちろん、数値変数も機能します。

これは他のほとんどのパッケージ/関数でも同様ですが、いくつかの動作が異なる可能性もあります。ロジスティックリンクが二項族のデフォルトであることに注意してください。なぜなら、これを指定する必要がなかったからです。

このようにすれば、正のレベルとしてカウントされる因子のレベルがわかっていることを確認してください。それ以外の場合、結果の解釈は逆になります。

+0

ありがとうございます。 プロジェクトのソリューションの1つでは、さらに進める前に数値に変換されているのを見ましたか?しかし、どのような推奨方法がありますか、あるいは、ほとんどの人が標準に従うと思いますか?私はRと統計を学び始めており、ベストプラクティスに興味があります。 – lak3567bo

+1

@ lak3567boよろしくお願いします。ほとんどの人はそれを数値に変換して、正のレベルであることを意図した因子レベルがそのように扱われていることを確実に知ることができます。オプションは普遍的な標準的な慣習ではなく、標準がある文脈(あなたのコースや特定の雑誌など)の中に他のやり方をするために存在するので、標準はおそらくそれを数値に変換することでしょう。あなたが答えたいと思ったら、私の答えで私の小さなチェックマークをクリックして、これが答えであることを将来の読者に知らせてください。 :) –

+0

フォーミュラインターフェイスの使い方が良いかもしれません。私はこれがデモンストレーションの目的のためであるかもしれないが、初心者にそれらを噛み付かせる何かを教える必要はないと理解する。 'mdl < - glm(as.factor(iris $ Species_binary)〜iris $ Sepal.Length、family =" binomial "); predict(mdl、newdata = iris [1:5、]);アイリス$ Species_binary < - as.factor(iris $ Species_binary); mdl2 < - glm(Species_binary〜Sepal.Length、family = binomial、data = iris); predict(mdl2、newdata = iris [1:5、]) ' –

関連する問題