PythonとPandasを使用してDifference in Differences(パネルデータと固定効果のある)解析を実行しようとしています。私は経済学の背景がなく、私はデータをフィルタリングし、私が言われた方法を実行しようとしています。しかし、私の知る限り学ぶことができるよう、私は基本的なデフ・イン・差分モデルは次のようになりますことを理解:PythonとPandasの違いの相違点
すなわち、私は多変量モデルを扱っています。
ここではRで簡単な例は以下の:それは見ることができるように
https://thetarzan.wordpress.com/2011/06/20/differences-in-differences-estimation-in-r-and-stata/
を、回帰は、入力として、観測の従属変数とツリーのセットを取ります。
私の入力データは次のようになります。いくつかの研究を通じ
Name Permits_13 Score_13 Permits_14 Score_14 Permits_15 Score_15
0 P.S. 015 ROBERTO CLEMENTE 12.0 284 22 279 32 283
1 P.S. 019 ASHER LEVY 18.0 296 51 301 55 308
2 P.S. 020 ANNA SILVER 9.0 294 9 290 10 293
3 P.S. 034 FRANKLIN D. ROOSEVELT 3.0 294 4 292 1 296
4 P.S. 064 ROBERT SIMON 3.0 287 15 288 17 291
5 P.S. 110 FLORENCE NIGHTINGALE 0.0 313 3 306 4 308
6 P.S. 134 HENRIETTA SZOLD 4.0 290 12 292 17 288
7 P.S. 137 JOHN L. BERNSTEIN 4.0 276 12 273 17 274
8 P.S. 140 NATHAN STRAUS 13.0 282 37 284 59 284
9 P.S. 142 AMALIA CASTRO 7.0 290 15 285 25 284
10 P.S. 184M SHUANG WEN 5.0 327 12 327 9 327
私は、これはパンダを固定効果とパネルデータを使用する方法であることが判明:
Fixed effect in Pandas or Statsmodels
私はいくつかを実施しマルチインデックスデータを得るための変換:
rng = pandas.date_range(start=pandas.datetime(2013, 1, 1), periods=3, freq='A')
index = pandas.MultiIndex.from_product([rng, df['Name']], names=['date', 'id'])
d1 = numpy.array(df.ix[:, ['Permits_13', 'Score_13']])
d2 = numpy.array(df.ix[:, ['Permits_14', 'Score_14']])
d3 = numpy.array(df.ix[:, ['Permits_15', 'Score_15']])
data = numpy.concatenate((d1, d2, d3), axis=0)
s = pandas.DataFrame(data, index=index)
s = s.astype('float')
しかし、私がモデルにこのすべての変数を渡す方法を取得していない、などのRで行うことができます
reg1 = lm(work ~ post93 + anykids + p93kids.interaction, data = etc)
ここ
、13、14、15、2013、2014、2015年のデータを表します私は、パネルを作成するために使用する必要がありますと信じています。 私はこのようなモデルと呼ば:
reg = PanelOLS(y=s['y'],x=s[['x']],time_effects=True)
をそして、これが結果です:
私は、これは固定で実行していないように見えること(経済学者で)言われました効果。私が確認したいこと
--EDIT--
時間与えられ、スコア上の許可証の数の効果です。許可の数は治療ですが、集中治療です。
コードのサンプルは、https://www.dropbox.com/sh/ped312ur604357r/AACQGloHDAy8I2C6HITFzjqza?dl=0にあります。
私はあなたがしていることをよく見ていませんでしたが、式インターフェイスを使用すると、ダミー変数と相互作用効果を作成するすべての作業をpatsyにさせることができます。 – user333700
差異の回帰(これは技術的には基本的なOLS回帰)の違いを実行するためにパネルデータを正式に「宣言」する必要はありません。パンダのデータフレームが行います。 Rスタイルの数式については、これを読むだけでいいです:http://statsmodels.sourceforge.net/devel/example_formulas.html – etna
固定パネル@etnaを使用するためにパンダを使用しなければならないことを理解しました。http:// stackoverflow。 com/questions/29065097/pandas-with-fixed-effects – pceccon