いくつかの大きなパネルデータをExcelからPythonに変換しようとしていますので、私はいくつかのGMM /断面パネルデータ回帰分析(sci-kitパッケージと思う)をすることができます。データをExcelからPythonに移行しましたが、回帰分析の形式が正しくありません(下記参照)。 Scikitのウェブサイトにはいくつかのデータセットがありますが、フォーマットの議論やデータをPythonに似たフォーマットにしてデータを得る方法は本当に役に立ちません。大きなパネルデータ、回帰可能な形式のPythonへのExcel?
誰もエクセル(.xlsx)データを使ってPythonに取得した経験がありますか? 'regression-ready'ですか?
私はすでにRとStataで必要な回帰分析を行っていますが、いくつかの素晴らしい属性があるので、回帰分析にPythonを使用することでよりうまくやりたいと思います。
私のこれまでのデータフレームフォーマットは、excelからPythonまでです。 (これは10,000×60形状データセットから切り捨てられます)
BANKS YEARS CIR DSF EQCUS EQLI EQNT EQUITY
0 CR1 2005 65.46 927915.00 28.553 23.948 37.542 264946.50
1 CR1 2006 65.98 1026491.00 30.491 26.584 36.143 312986.00
2 CR1 2007 60.26 1437615.00 27.003 23.413 28.238 388197.20
3 CR1 2008 58.08 1605464.00 24.024 20.160 25.828 385696.80
4 CR1 2009 65.21 1538570.00 28.160 22.850 27.907 433267.30
5 CR1 2010 54.45 1822863.00 31.009 24.555 28.274 565254.60
6 CR1 2011 57.38 2075505.00 30.905 24.861 29.618 641440.50
7 CR1 2012 62.12 2533641.00 29.595 24.509 28.883 749821.50
データタイプ:列の
>>>df.dtypes
BANKS object
YEARS int64
CIR float64
DSF float64
EQCUS float64
EQLI float64
EQNT float64
EQUITY float64
ユニコード(私はSCI-キットがそれを好きとは思わない!)
>>>df.columns.tolist()
[u'BANKS', u'YEARS', u'CIR', u'DSF', u'EQCUS', u'EQLI', u'EQNT', u'EQUITY']
http://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html
希望に役立ちます...:パンダもダミー変数にカテゴリ変数を変換する機能を持っているhttp://pandas.pydata.org/pandas-docs/stable/10min.html
:ここでの素敵なチュートリアルがあります。これはパンダのデータフレームであり、scikit-learnで使用できます。このデータセットを使用する際に直面する問題は何ですか? – ayhan
私はscikit-learnページで、Excelデータを入力するためのドキュメントは表示されません。私が見ているのは、すでにロードされているデータセットだけです。その後、フィーチャの抽出が始まり、モデルに適合します。どのように私は上記のデータのための基本的なOLSを実行するのですか?私はscikitのページのどこにもこれが表示されません。 Statsmodelsにも同様のドキュメントの問題があります。 – StringTheo