2017-06-18 13 views
0

計量分析のために、私はブラジルの中央銀行と政府の研究機関から得られた教育、健康、収入のデータを回帰分析しようとしています。 Python、pandas、statsmodels、matplotlibは私がこのプロジェクトで最も使っている外部ライブラリです。PythonのOLS回帰のためのパンダデータフレームの整理

データの形式は、行の各年と列の都市/状態(複数のファイルには都市データがあり、一部には状態データがあります)が複数のテーブルにあります。市や年によって収入のパンダのデータフレームの

例:

1200302 1200328 ... 1720937 1720978 1721000 1721109 1721208 \ 
1970  0.31  NaN ...  NaN  NaN  NaN  0.20  0.28 
1980  0.39  NaN ...  NaN  NaN  NaN  0.45  0.57 
1991  0.44  NaN ...  NaN  NaN  1.45  0.65  0.46 

(上部の各数値は、都市コードです - 多くの都市が同じ名前を持つ状態データについては

、20があります。国家別国勢調査が実施された場合、3年から4年しか利用できません)。

教育、健康、収入の指標を比較したいと思います。すべてのインジケータが選択され、データセットはパンダのデータフレームにインポートされ、きれいに最小限にクリーニングされています。

複数の独立変数のために、すべての都市/州でOLSまたはFE回帰のR値を見つけるにはどうすればよいですか?

は今、私は私のプログラムは、一度に2つの状態または1つの独立変数のための2つの都市の線形OLS回帰を実行するように設定されている:

one = df1[col] 
two = df2[[col,'const']].join(df3[col]) 
est = sm.OLS(one, two, missing='drop').fit() 

答えて

0

このようなアンバランスパネルデータのための標準的な方法がにあります各断面単位の時系列を積み重ね、固定効果のためのダミー変数を作成します。

断面単位(つまりユニット固有の傍受)の固定効果を作成するには、州と都市のラベルまたはIDを持つカテゴリ変数が必要です。その後、式インターフェースとpatsyは、C(id)を使用して必要なダミー変数を作成できます。

次に、OLSを使用してFEモデルを推定することができます。 fitメソッドには、パネルまたはクラスタのロバストな標準エラーのいずれかを使用して、断面または相関内の標準誤差を補正するcov_typeオプションがあります。

+0

ありがとうございました! fit()メソッドのcov_type = 'nonrobust''パラメータは本当に役に立ちます。場所のカテゴリ変数は決して使用するとは思っていませんでしたが、完了したら、私は更新されたデータフレームの設計と、 FEモデル。 – andersan

関連する問題