2017-12-08 16 views
0

私は、新卒者のGPAスコアと、試験期間後に雇用されたか、または解雇されたかを問わず、新卒採用者のデータセットを持っています。大学GPAが雇用または解雇に重大な影響を及ぼすかどうかを分析するように私は上司から要請を受けました。時には、大学ランキングのように追加の機能を組み込むこともできます。ボスは現在、データサイエンスや機械学習に興味を持つ日です。しかし、データアナリティクスの経験はこれまでありませんでした。この問題にどのように取り組むことができるのか、私はこれをどうやって学ぶべきなのでしょうか?私は技術的な専門用語が歓迎されるように、プログラミングの背景(Pythonを知っている)を持っています。データ分析アプローチ

答えて

1

GPA、University_rankingなどをフィーチャーとして新卒者の就職状況を予測しようとしています。

あなたの出力は(0または1)

Training_setとして雇わ/解雇されなければならないので、あなたの問題は、「バイナリ分類問題」として考えることができます:あなたは機能をトレーニングセットを作成する必要がまず第一に実際の出力

特徴分析:データはこのような何か使用して出力に影響を及ぼしているかを分析してみてください:電車に

train = pd.read_csv('../input/train.csv') 
print (train[["GPA", "Employment_status"]].groupby(['GPA'], as_index=False).mean()) 

アルゴリズム:バイナリ解決するために使用することができ、多くの機械学習アルゴリズムがあります。 SVM、決定木、KNNのような分類問題。 出力の1つにディストリビューションを適合させることができる異常検出のためにも行くことができます。 sklearnライブラリは、使いやすく、多種多様なアルゴリズムを提供するため、使用してください。

sklearnの詳細については、thisを参照してください。

テスト:最後に、テストセットを使用してモデルをテストし、モデルがデータにどのように適合しているかを確かめるために精度を計算します。

彼らはマシンを起動され、誰のために非常に理解しやすいようアンドリュー・ウで講義をチェックアウトは

here

データの可視化を、それをlearning.Find:

Kaggleがに最高のプラットフォームのひとつであります新しいアプローチとアルゴリズムを学ぶthisリンクには、Irisデータセットでさまざまなデータ視覚化ツールを使用する方法に関する情報が記載されています。

データ視覚化の詳細については、thisを参照してください。

データビジュアライゼーションは、フィーチャの相関関係の理解に役立ちます。

+0

お返事ありがとうございます。私はこの問題に関する新しい情報はほとんど得ていない。これを行うことの本当の目的は、GPAの高い人々が保護観察の後に圧倒的に雇われていることを示すことによってGPAを雇用の基準として維持することによってコストを節約できるかどうかを経営者に証明することです。これは単に統計的な視覚化の問題ではなく、予測(機械学習)とは関係がありませんか? –

+1

次に、機能解析ステップを実行してください。 GPAをある閾値以上の値に対しては高く、低い値に対しては低いものとして分類し、プロットすることによってこれを視覚化することもできる影響のパーセントをチェックする。 – janu777

+0

リンクや他のリソースを共有して、機能分析や相関を学ぶことができれば、それは私が学ぶのに役立ちます。 –

1

これらの中で、あなたは基本的に、大学のGPA、大学ランキングなどが、検定期間後に雇用または解雇に大きな影響を与えるかどうかを予測しようとしています。基本的にはバイナリの分類問題です(これらのチュートリアルはBinary Classification Best Tutorialを参照してください)。 @ janu777で与えられたアプローチは正しいです、私はその中にいくつかの追加情報を加えたいと思っていました。 あなたはこれらのライブラリ

Pandas 
Scikit Learn 
Matplotlib 
numpy 
Sklearn 
Statsmodelapi 

データ検索に使用するのpython側から基本的にこれらの問題をされて解決するための手順、

Data Exploration(include variable identifications) 
Data Cleaning 
Feature Engineering(Watching correlations kind of property among features) 
Model Building and Training 
Doing Predictions 

まずあなたは、以前の従業員があったかどうか(前の年のデータを持っている必要がありますが雇われたか、または解雇された)。

import pandas as pd 
import numpy as np 
import matplotlib as plt 

df = pd.read_csv("../trainset.csv") #Reading the dataset in a dataframe 
df.describe() 

データクリーニング

現在、これらの段階では、あなたのデータにおける欠損値と全てを見るために持っている必要があり、あなたの好みに応じた治療を行うことができますが、最も有名なのは、すべての欠落値をドロップすることです、私はあなたの列車のセットが大学のGPAと大学のランキングが機能変数である3変数を持っていると仮定しています

df.dropna(axis=0, how='all') 

ので、そのためにあなたは、これらを使用することができます。あなたのターゲット変数が採用されている/起動されています(1または0)。予測変数とターゲット変数の間に相関を使用し、視覚化が役立つはずです。今、あなたはあなたの問題のためのモデルを作成する必要があり、これらのアルゴリズムSklearn algoを使用することができます(あなたが適用されなければならない非常に重要な段階である

trainingdata['GPA'].astype('float64').corr(trainingdata['target'].astype('float64')) 

または

# importing the required module 
import matplotlib.pyplot as plt 

# x axis values 
x = [1,2,3] # your feature variable 
# corresponding y axis values 
y = [2,4,1] # your target variable 

# plotting the points 
plt.plot(x, y) 

# naming the x axis 
plt.xlabel('x - axis') 
# naming the y axis 
plt.ylabel('y - axis') 

# giving a title to my graph 
plt.title('My first graph!') 

# function to show the plot 
plt.show() 

モデルの構築と予測し、フィッティング 、決定木、knn、svmなどのアルゴリズムを選択し、良いスコアを与えるアルゴリズムのみを選択してください) これらのサンプルコードは、

あなたの問題を解決する必要があります予測 を行う
from sklearn.ensemble import RandomForestClassifier 
#Building random forest classifier model 
def random_forest_classifier(features, target): 
    """ 
    To train the random forest classifier with features and target data 
    :param features: 
    :param target: 
    :return: trained random forest classifier 
    """ 
    clf = RandomForestClassifier() 
    clf.fit(features, target) 
    return clf 

今、あなたは、あなたの試験データに同じのためのサンプルコードを予測を行うことができますされ、

predictions = randomforestmodelis.predict(test_x) 
    for i in range(0, 5): 
     print("Actual outcome :: {} and Predicted outcome :: {}".format(list(test_y)[i], predictions[i])) 
     #print("Train Accuracy :: ", accuracy_score(train_y, randomforestmodelis.predict(train_x))) 
    print("Test Accuracy :: ", accuracy_score(test_y, predictions)) 

+0

これに答える時間をとってくれてありがとう。私はこの問題に関する新しい情報はほとんど得ていない。これを行う真の目標は、GPAの高い人が保護観察の後に圧倒的に雇われていることを示すことによってGPAを雇用のベンチマークとして維持することによって費用が節約できるかどうかを経営陣に証明することです。これは単に統計的な視覚化の問題ではなく、予測(機械学習)とは関係がありませんか? –

+1

その場合、相関の種類のメソッドを使用してフィーチャ分析を行い、matplotlibのような視覚化を使用することができます。 –

+0

リンクやその他のリソースを共有して、機能の分析や相関を学ぶことができれば、私が学ぶことが役に立ちます。 –

関連する問題