2017-06-04 7 views
1

私は2つのデータフレームdf1とdf2を持っているとしましょう。 df1には、userid、sexid、locationなどの複数の列があります.df2では、df1と同じ列がありますが、いくつかの予測アルゴリズムを使用して入力する必要があります。 私はちょうど初心者であり、別の種類の問題を試しました。だから私がそれを打ち砕くのを助けるかもしれないどんな助言か有用な参考文献は歓迎されます。古いデータフレームの情報を使って新しいPythonデータフレームの列の値を予測する方法

+1

これらの個人の特性がわからない場合(つまり、モデルにフィードするデータがない場合)、 'df2'で' sexid'をどのように予測するのでしょうか? – blacksite

+0

ああ、私は何かを混ぜた。私の 'df2'では' df1'のように全ての列も持っていますが、私はそれを予測する必要があるので 'sexid'を持っていません。私は自分の投稿を編集します。私の間違いを指摘してくれてありがとう:) –

+0

sklearnパッケージのドキュメントを探しているのはおそらく良いスタートです(あなたの場合は分類器が必要です) –

答えて

2

最小限例:

import pandas as pd 
from sklearn.linear_model import LogisticRegression 

df1 = pd.DataFrame({'sexid': list('MMFFMFFMMF'), 'x1': [0, 12, 2, 3, 4, 2, 0, 12, 12, 12], 'x2': [0, 1, 1, 1, 0, 1, 1, 0, 0, 1]}) 

df2 = pd.DataFrame({'x1': [0, 12, 2, 3, 4, 2, 0, 12, 12, 12], 'x2': [0, 1, 1, 1, 0, 1, 1, 0, 0, 1]}) 

X = df1[['x1', 'x2']] 
y = df1['sexid'] 

model = LogisticRegression() 

model.fit(X, y) 

model.predict(df2) 

返します

array(['F', 'M', 'F', 'F', 'M', 'F', 'F', 'M', 'M', 'M'], dtype=object) 

は、私は非常にあなたがthisを読むことをお勧めします。

関連する問題