2016-03-24 11 views
0

ESSデータセットを使用していますが、SAS Enterprise Guideの値の欠落の問題に対処する方法は不明です。従属変数は「主観的な幸福」であり、大量の制御変数を含めることを目指しているため、欠損値の多いデータセットがある状況があります。SASエンタープライズガイド、不足している変数の処理方法が異なります

「リストワイズの削除」は使用しません。代わりに、回答の回答に応じて、さまざまな方法でさまざまなミスを処理したいと考えています。「無回答」、「適用外」、「拒否」、「わからない」。例えば、私たちはペアで削除することを計画しています。質問に応じて(回答者の回答がMCAR、MAR、NMARに関する情報を提供するという前提の下で)他のいくつかの回答の平均値。

私たちの主な質問は以下のとおりです。現在、私たちの不足している変数は、データセット(99、77、999、88など)で異なる方法でマークされている

  • は、我々は先に進む前にExcelでこれらの値を交換する必要がありますSASエンタープライズガイドでは?はいの場合、異なる方法で扱われるはずのものをどのように置き換えるのが最もよいでしょうか?
  • さまざまなミスをさまざまな方法で扱うためにSAS Enterprise Guideにどのように伝えますか?
  • ダミー変数を使用して、たとえば最終的な回帰にどのように含めるべきでしょうか?

我々はこれについて読み取ろうとしましたが、少し混乱しているので、我々は、任意の助けを本当に感謝しています:)

+0

はい、モデリング前に不足しているものを置き換える必要がありますが、ExcelではなくEGで行う必要があります。この方法で変更をトレースすることができます。モデルを実行して特定の欠落したケースに対処する方法を変更すると、修正するのが簡単になります。 Imputationは不足している値を埋めるための言葉です - 私はEGがこれをどのように正確に達成するのかよくわかりません。この質問はCrossValidatedにも掲載されており、プログラミングよりも統計的方法論に関連しています。 – Reeza

+0

ようこそ。 [再現可能な例を提供してください](http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example)...最低限、(1)何もない「ESSデータセット」の説明、および(2)欠損値の望ましい処理については完全には不明です。両方を明確にしてください。 –

答えて

1

テクニカルノートでは、SASは、特別な欠損値を提供しています.A .B .Cなど。 (大文字と小文字を区別しません)。 例:SASの数値を置き換えます。 99 =.a77 = .b たとえば、ツリーは、これらを別々の値として扱うことができます。

回帰モデルで欠落している観測の情報を保持するには、何らかのトレードオフを行う必要があります(問題に対して最も有害な解決策を見つける)。

  • 一つの古典的な解決策は、ダミー変数を作成し、平均で 欠損値を置き換えることです。モデル内にダミーと元の変数の両方を含めます( )。考えられる問題:係数 は偏りがあり、多共線性であり、カテゴリ/変数が多すぎます。

  • 別のアプローチは、変数をカテゴリにバインドすることです。 を価値(例:デシル)だけで行うと、情報が失われる可能性があります。理論でそれを行い、 あなたは確認のバイアスを受ける可能性があります。

  • より高度なアプローチは、情報 値 (http://support.sas.com/resources/papers/proceedings13/095-2013.pdf)あなたの独立変数の を計算することであろう。これにより、 を含むすべての値が置き換えられます。原因のこれはまた、 情報のバイアスと喪失につながるでしょう。しかし、少なくとも有用な/役に立たない欠損値 を特定するための良いステップかもしれません。

関連する問題