線形回帰のカテゴリ変数：1つの値が1つのレベル、残りはNA

モデルサマリーの実行時にRがどのように機能するかに関する理論的な質問があります。私は、私の変数のうちの2つが、3つのレベル、それぞれ対応する遺伝子型を持つカテゴリカルであるいくつかの線形回帰モデルを実行しています。私は、レベルのうちの2つだけがモデルの要約に表示されることを知っています。レベルの1つは参照でなければなりません。しかし、これらの変数は、線形回帰のカテゴリ変数：1つの値が1つのレベル、残りはNA

のように、レベルの1つのみに1カウントしかありません。変数1レベル：TT 176カウント/ TC 45カウント/ CC 1カウント（これは遺伝子型が223人のうちの個体）。

ここで、このCCレベルは通常モデルの要約には表示されません。それは、1つしかないため、Rには考慮されていないからです。私が必要とするのは、私の前提を確認したり拒否する文献の参考文献を見つけることだけです。私はこれをさまざまな方法でグーグルにしようとしており、lmのR ?helpおよびその他の関連する検索を行っていますが、探しているものが見つからないか、そのように理解できませんでした。

ご協力いただければ幸いです！

出典

2017-10-03 Laura Bas

これらのレベルは自然な順序になっていますか？そうでない場合、回帰は変数1のCCレベルにあふれていると思います。係数の基礎となる観察は1つだけですが、回帰は平均的な行動について何かを言う「多くの」観測を含めるという考え方に基づいています –

私が思っていたこと。しかし、私はこれが本当に起こっていることを100％確信して言うことができる必要があります。そのため、私はこの現象の文献源を探しています（私は論文を準備していますので、私の結果を説明するときの私の推論）。初めてR！ –

あなたの前提は正しくありません。

最初のレベルが参照レベルになり、デフォルトの順序はアルファベット順になります。 CCはアルファベット順に表示されるため、モデルの参照レベルです。

比較的一般的な値を参照レベルとして使用することをお勧めします（他の見積もりの差異を減らす）こと。したがって、アルファベットのデフォルトを変更してTTを参照レベルにすることをお勧めします。これは、

your_data$var = relevel(your_data$var, ref = "TT")

（もちろん、データフレームと変数名が何であれ）でも簡単にする必要があります。

レベルの設定方法を「コントラスト」といいます。 ?contrastsは読書を開始するのに適しています。その検索語句を使用すると、他のドキュメント/参照も見つけることができます。（以外のオプションがあり、参照レベルとの比較はすべてですが、ここでは範囲外です）

同様に、1つの観測値しか持たないレベルが含まれていると思われますそれは統計的な質問であり、プログラミング上の問題ではありません（あなたの質問よりも多くの情報が必要になります）。

出典

2017-10-03 15:12:34 Gregor

ちょっと@Gregor！私は、異なる遺伝子型の推定値を分析しようとしているので、これらの変数の参照レベルを絶えず変更しています）ので、それは問題ではないと思います。参照が何であれ、CCは決してモデル要約に現れません。私は間違いなく「？コントラスト」を見ていきます。その他の提案はありますか？ :)ありがとう！ –

多分、他の変数と一緒に、あなたはCCと特異点があります。モデリングコールで警告が出ますか？また、「常に基準レベルを変更する」ということは必要ないとは言えませんが、ここでも議論するのは難しいです。 stats.stackexchangeで新たな質問の詳細を提供する方が良いかもしれません。 – Gregor

ねえ！警告はありません。「絶えず」については、それは単なる演説であると思います。私は、それぞれの遺伝子型が私の従属変数にどのように影響しているかを分析しようとしているので、参照レベルを動かしています。とにかく、私は、分析のためにCCレベルをすべて削除することを考えています。なぜなら、私は単一の観察から信頼できる結論を引き出すことはできないと言うのが妥当であるからです。私はstats.stackexchangeを見ていきます。再度、感謝します！ –

線形回帰のカテゴリ変数：1つの値が1つのレベル、残りはNA

答えて

関連する問題