2017-03-22 33 views
0

私は、営業時間の異なる営業時間に営業担当者の売上に大きな違いがあるかどうかを調べるために、営業担当者のシフトを見ています。具体的には、a)個々のシフト時間の間に傾向が重要であるかどうか、b)他のいくつかの潜在的な説明変数と比較してどのようにランク付けされているかを評価しようとしている。Python Statsモデルのパネルデータの線形混合モデルと時間自己相関

データセットには、同じ長さの営業担当者ごとに時間で割った複数のシフトがあります。

など。

model = sm.MixedLM.from_formula("Cookies ~ C(Hour) + CustomerArrivals + Oventemp", BakeSaleData, groups=BakeSaleData["Salesperson"]) 
result = model.fit() 
print(result.summary()) 

Our Q-Q plot for the residuals:

私は私のモデルではかなりの自己相関があったことが統計でかなり大きな背景を持つ私の研究を見直し誰かに言われますが、これを補償するためにどのように私にははっきりしていないました。

従来の時系列データセットでは、AR(1)とCochrane-Orcuttを使って自己相関項を計算することができますが、これらの時系列計算は一般に、時系列が1つのデータセットにあります。

+0

あなたがここで説明しようとしている独立したエラーの違反は、私には完全には分かりません。 TSフレームワークでは、将来の観測値は過去の観測値cor(e_t、e_ {t + 1})!= 0と相関していると仮定します。 MLMでは、グループ(あなたのケースでは営業担当者)の観測値は 'cor!(e_ {i、j}、e {i、k})!= 0)' '' j!= k' 。あるいは、シフト内の相関エラーをコントロールしようとしていますか?あなたはあなたの質問を言い換えて、明確にすることができますか? –

+0

質問を明確にするのを助けてくれてありがとう - 私は、懸念しているのは、持ち越した個々の時間の間に相関関係がある可能性があることだと思います(前の時間の売り上げが現在の時間に影響を及ぼす場合など)... – codercat

+0

私の頭、私はこのフィットがMLMフレームワークにあるのかどうかはわかりません...なぜそれがどれほど重大な問題かをテストしませんか? –

答えて

0

statsmodels MixedLMは、ランダム係数またはランダム効果を超えた残差の直接相関を考慮していません。

AR(1)を含むより広い範囲の相関構造を可能にする片方向パネルのデータモデルであるstatsmodels.GEEを使用できます。ファミリーガウスの場合、MixedLMに似ています。しかし、それは計量経済学において正確に識別されたGMMに類似した推定式を使用し、GEEはデフォルトのクラスターロバスト標準誤差によって使用される。逐次相関した誤差を仮定すると、説明変数は外生的であるということである。

ここでhttps://github.com/statsmodels/statsmodels/wiki/Examples#generalized-estimating-equations-geeはGEEのノートブックです。

スタンダードに類似したCochrane-OrcuttまたはPrais-Winstonの標準計量分析パネルデータは統計モデルにまだ含まれていません(ただし、ドラフトバージョンがどこかにあるかもしれません)。

+0

これは間違いなく助けになりました。モデルパラメータはMixedLM推定値に対してあまり変化しないが、QQプロットとの偏差は実質的に少ないようである。 – codercat

+0

線形関数のパラメータの推定値は、一般にOLSまたはGLM(線形指数ファミリ)における誤った指定された分散および相関に対してロバストです。標準誤差とそれが効率的な推定量であるかどうかだけが影響を受けます。 (GEEのようなクラスタの堅牢な標準エラーは、クラスタ相関内のどのタイプのものに対しても堅牢です。) – user333700

関連する問題