2016-11-21 4 views
0

私はRを学習し、1470件のデータセットを扱っています。データセットの名前はABCです。 as.factorを使用して、カテゴリ変数を要因として変換しました。glm関数が正しいデータセットを取得しない

その後、電車とテストにデータセットを分割しました。列車とテストデータの両方のケースが完璧なようです。それから私は

fit = glm(attrition~Dept_1+Education_1+BusinessTravel_1,binomial(link="logit"),train) 

フィット方程式の実行以下の構文を使用して、GLMの機能を使用しますが、代わりに1028のレコードの列車のデータセットの例1470でデータセット全体ABC上で実行されます。

問題が何であるか理解できません。

+0

dim(train)とdim(test)の結果は正しいですか? –

+0

「データ=列車」と記されています...また、分割に使用されたコードを表示します –

答えて

3

あなたが行う場合は、この:

Dept_1 <- as.factor(ABC$Dept) 
Education_1 <- as.factor(ABC$Education) 
BusinessTravel_1 <- as.factor(ABC$BusinessTravel) 

あなたが実際にあなたの地球環境で3つの新しい変数を作成している、いない元のデータフレームABCインチこのため、ABCをトレーニングサンプルとテストサンプルに分割すると、新しい変数には影響しません。

あなたがモデルに合うように行くとき、あなたのglmコール

fit = glm(attrition~Dept_1+Education_1+BusinessTravel_1,binomial(link="logit"),train) 

が式に記載されている変数を探します。 trainデータセットではそれらを見つけることはできませんが、地球環境でそれらを見つけることができます。そのため、彼らは元の長さを持っています。あなたはおそらく望ん

は、データフレームABCで変数を作成します

ABC$Dept_1 <- as.factor(ABC$Dept) 
ABC$Education_1 <- as.factor(ABC$Education) 
ABC$BusinessTravel_1 <- as.factor(ABC$BusinessTravel) 

です。

+0

香港大井さんにありがとうございました。出来た。 – Kedar

+0

感想が評価されている間、StackOverflowは[ありがとう]と言うコメントを使用して非推奨です(http://meta.stackoverflow.com/questions/258004/should-thank-you-comments-be-flagged?lq=1) ;この回答が有用であれば、十分な評判があればそれをアップヴォートすることができます。また、あなたの質問に満足して答えた場合には、それを受け入れるためにチェックマークをクリックすることをお勧めします。 –

関連する問題