
# import neccessary packages 
import pandas as pd 
import numpy as np 
import sklearn as skl 
from sklearn import tree 
from sklearn.cross_validation import train_test_split as tts 

# import data and give a little overview 
sample = pd.read_stata('sample_data.dta') 

s = sample 

# What I want to learn on 
X = [s.crisis, s.cash, s.industry] 
y = s.wc_measure 
X_train, X_test, y_train, y_test = tts(X, y, test_size = .5) 

#let's learn a little 

my_tree = tree.DecisionTreeClassifier() 
clf = my_tree.fit(X_train, y_train) 
predictions = my_tree.predict(X_test) 

私が取得エラー以下:Number of labels=50 does not match number of samples=1私は次のことを試してみました。私がXを単一の変数(例えば、X = s.crisis)に基づいている場合、私はXを再形成するように求められます。私はこれらの問題のいずれかを持っている理由を完全に理解していません...アイデア?


clear matrix 
clear all 
set more off 

set obs 100 
gen id = _n 

    gen industry = round(runiform()*5+1) 
    gen activity = round(runiform()*5+1) 
    gen crisis = round(runiform()*4+1) 
     egen min_crisis = min(crisis) 
     egen max_crisis = max(crisis) 
     gen n_crisis = (crisis - min_crisis)/(max_crisis-min_crisis) 

*Company details 
    gen staff = round((0.5 * industry + 0.3 * activity - 0.2 * crisis) * runiform()*100+1) 

    gen revenue = (0.5 * industry + 0.2 * activity - 0.3 * crisis) * 1000 + runiform() 
     replace revenue = 0 if revenue<0 

    *Working Capital (wc) 
    gen stock = runiform()*0.5*crisis*revenue 
    gen receivables = runiform()*0.5*crisis*revenue 
    gen payables = runiform()*-0.5*crisis*revenue 
     replace payables = 0 if payables < 0 
    gen wc = stock + receivables - payables 
     egen avg_wc = mean(wc), by(industry) 

    gen loan = (0.5 * industry + 0.2 * activity - 0.3 * crisis) * 1000 + runiform() 
     replace loan = 0 if loan<0 
     egen pc_loan = pctile(loan), p(0.2) by(industry) 
     replace loan = 0 if loan<pc_loan 

    gen current_debt = n_crisis * loan + runiform()*100 

    gen cash = (1-n_crisis)*revenue + runiform()*100 


    *WC-measure (binary) 
     gen wc_status = (wc-avg_wc) 
      egen max_wc_status = max(wc_status), by(industry) 
      egen min_wc_status = min(wc_status), by(industry) 
      gen n_wc_status = (wc_status - min_wc_status)/(max_wc_status-min_wc_status) 
    gen wc_measure = round(n_wc_status) 

あなたはsample_data.dtaファイルを共有することはできますか? – Xevaquor


Tは正しい入力ですか? –


私はそれを共有することはできません。しかし、データの作成方法を示すsataスクリプトをアップロードします。 – Rachel





# import data and give a little overview 
sample = pd.read_stata('sample_data.dta') 
s = sample 

# Have some mor vars and an array of explanatory vars 

X = np.array((s.crisis, s.cash, s.industry)).reshape(100, 3) 
y = np.array(s.wc_measure) 
X_train, X_test, y_train, y_test = tts(X, y, test_size = .8) 

#let's learn a little 

my_tree = tree.DecisionTreeClassifier() 
clf = my_tree.fit(X_train, y_train) 
predictions = my_tree.predict(X_test) 

:ここで私はStataの中のデータを生成する方法でありますXがttsの正しい入力であるかどうかを確認しますか? Xは3行とN列を持ちます。 Xは3つの属性を持つN行を持つ必要があります。それは、番号が一致しないと不平を言う理由です。


私は今のところこれを実際には得られません。私はPythonに全く新しいです。私はXのデータ構造をN行/ 3列と仮定しました。どうすれば確認できますか? – Rachel


array([[1,2]、[3,4]、[5,6]、[7,9]])のようになります。この配列には2つの列と4つの行があります。こちらをご覧ください。 http://scikit-learn.org/stable/modules/generated/sklearn.cross_validation.train_test_split.html train_test_splitの例があります。うまくいけば、これは助ける –


ありがとう!私は最初の数行などを印刷する方法を知っていますが、どのように配列の構造を理解するのですか? – Rachel
