2016-07-23 8 views
0

いくつかの大きなパネルデータをExcelからPythonに変換しようとしていますので、私はいくつかのGMM /断面パネルデータ回帰分析(sci-kitパッケージと思う)をすることができます。データをExcelからPythonに移行しましたが、回帰分析の形式が正しくありません(下記参照)。 Scikitのウェブサイトにはいくつかのデータセットがありますが、フォーマットの議論やデータをPythonに似たフォーマットにしてデータを得る方法は本当に役に立ちません。大きなパネルデータ、回帰可能な形式のPythonへのExcel?

誰もエクセル(.xlsx)データを使ってPythonに取得した経験がありますか? 'regression-ready'ですか?

私はすでにRとStataで必要な回帰分析を行っていますが、いくつかの素晴らしい属性があるので、回帰分析にPythonを使用することでよりうまくやりたいと思います。

私のこれまでのデータフレームフォーマットは、excelからPythonまでです。 (これは10,000×60形状データセットから切り捨てられます)

BANKS YEARS  CIR   DSF EQCUS  EQLI  EQNT  EQUITY 
0  CR1 2005 65.46 927915.00 28.553 23.948 37.542 264946.50 
1  CR1 2006 65.98 1026491.00 30.491 26.584 36.143 312986.00 
2  CR1 2007 60.26 1437615.00 27.003 23.413 28.238 388197.20 
3  CR1 2008 58.08 1605464.00 24.024 20.160 25.828 385696.80 
4  CR1 2009 65.21 1538570.00 28.160 22.850 27.907 433267.30 
5  CR1 2010 54.45 1822863.00 31.009 24.555 28.274 565254.60 
6  CR1 2011 57.38 2075505.00 30.905 24.861 29.618 641440.50 
7  CR1 2012 62.12 2533641.00 29.595 24.509 28.883 749821.50 

データタイプ:列の

>>>df.dtypes 

BANKS     object 
YEARS     int64 
CIR     float64 
DSF     float64 
EQCUS     float64 
EQLI     float64 
EQNT     float64 
EQUITY     float64 

ユニコード(私はSCI-キットがそれを好きとは思わない!)

>>>df.columns.tolist() 

[u'BANKS', u'YEARS', u'CIR', u'DSF', u'EQCUS', u'EQLI', u'EQNT', u'EQUITY'] 
+0

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html

希望に役立ちます...:パンダもダミー変数にカテゴリ変数を変換する機能を持っているhttp://pandas.pydata.org/pandas-docs/stable/10min.html

:ここでの素敵なチュートリアルがあります。これはパンダのデータフレームであり、scikit-learnで使用できます。このデータセットを使用する際に直面する問題は何ですか? – ayhan

+0

私はscikit-learnページで、Excelデータを入力するためのドキュメントは表示されません。私が見ているのは、すでにロードされているデータセットだけです。その後、フィーチャの抽出が始まり、モデルに適合します。どのように私は上記のデータのための基本的なOLSを実行するのですか?私はscikitのページのどこにもこれが表示されません。 Statsmodelsにも同様のドキュメントの問題があります。 – StringTheo

答えて

0

回帰分析に含める列や取得したエラーはわかりませんが、回帰分析(「BANKS」など)ではカテゴリ変数を使用できません。あなたは、カテゴリvarをダミー変数(バイナリ0/1)に変換し、元のカテゴリ変数を回帰から除外する必要があります。

また、データポイントが見つからない行を含めることもできないと考えています。そのため、データを補充するか、行を削除する必要があります。 (パンダのdf.fillna)

pandasを使用してPythonでデータセットを管理することを検討してください。これはPythonでインストールしてインポートできるパッケージで、PythonはRやSTATAのように動作します。私は、データセットに問題が表示されていない

+0

リンクありがとう!私は今パンダを使用しています。 'banks'変数は、回帰変数としてではなく、パネルデータを示すために使用されます。私はちょうどそれがある形式でこのデータの回帰を少し助けを必要としています。私はPythonの回帰に関する情報が非常に驚いています、それは 'stata'または 'R'形式を介してデータをインポートすることになります。 – StringTheo

+0

私は 'melt'、 'pivot'、 'groupby'コマンドを使用しているので、私はパンダを介してデータを準備しました。現時点では、私はsci-kitを介してデータを移動させるためにOLSを回帰分析したいと考えています。 – StringTheo

+0

問題はありません。あなたは何を問題にしていますか? – ccook5760

関連する問題