計量分析のために、私はブラジルの中央銀行と政府の研究機関から得られた教育、健康、収入のデータを回帰分析しようとしています。 Python、pandas、statsmodels、matplotlibは私がこのプロジェクトで最も使っている外部ライブラリです。PythonのOLS回帰のためのパンダデータフレームの整理
データの形式は、行の各年と列の都市/状態(複数のファイルには都市データがあり、一部には状態データがあります)が複数のテーブルにあります。市や年によって収入のパンダのデータフレームの
例:
1200302 1200328 ... 1720937 1720978 1721000 1721109 1721208 \
1970 0.31 NaN ... NaN NaN NaN 0.20 0.28
1980 0.39 NaN ... NaN NaN NaN 0.45 0.57
1991 0.44 NaN ... NaN NaN 1.45 0.65 0.46
(上部の各数値は、都市コードです - 多くの都市が同じ名前を持つ状態データについては
、20があります。国家別国勢調査が実施された場合、3年から4年しか利用できません)。
教育、健康、収入の指標を比較したいと思います。すべてのインジケータが選択され、データセットはパンダのデータフレームにインポートされ、きれいに最小限にクリーニングされています。
複数の独立変数のために、すべての都市/州でOLSまたはFE回帰のR値を見つけるにはどうすればよいですか?
は今、私は私のプログラムは、一度に2つの状態または1つの独立変数のための2つの都市の線形OLS回帰を実行するように設定されている:
one = df1[col]
two = df2[[col,'const']].join(df3[col])
est = sm.OLS(one, two, missing='drop').fit()
ありがとうございました! fit()メソッドのcov_type = 'nonrobust''パラメータは本当に役に立ちます。場所のカテゴリ変数は決して使用するとは思っていませんでしたが、完了したら、私は更新されたデータフレームの設計と、 FEモデル。 – andersan