私は、新卒者のGPAスコアと、試験期間後に雇用されたか、または解雇されたかを問わず、新卒採用者のデータセットを持っています。大学GPAが雇用または解雇に重大な影響を及ぼすかどうかを分析するように私は上司から要請を受けました。時には、大学ランキングのように追加の機能を組み込むこともできます。ボスは現在、データサイエンスや機械学習に興味を持つ日です。しかし、データアナリティクスの経験はこれまでありませんでした。この問題にどのように取り組むことができるのか、私はこれをどうやって学ぶべきなのでしょうか?私は技術的な専門用語が歓迎されるように、プログラミングの背景(Pythonを知っている)を持っています。データ分析アプローチ
答えて
GPA、University_rankingなどをフィーチャーとして新卒者の就職状況を予測しようとしています。
あなたの出力は(0または1)
Training_setとして雇わ/解雇されなければならないので、あなたの問題は、「バイナリ分類問題」として考えることができます:あなたは機能をトレーニングセットを作成する必要がまず第一に実際の出力
特徴分析:データはこのような何か使用して出力に影響を及ぼしているかを分析してみてください:電車に
train = pd.read_csv('../input/train.csv')
print (train[["GPA", "Employment_status"]].groupby(['GPA'], as_index=False).mean())
アルゴリズム:バイナリ解決するために使用することができ、多くの機械学習アルゴリズムがあります。 SVM、決定木、KNNのような分類問題。 出力の1つにディストリビューションを適合させることができる異常検出のためにも行くことができます。 sklearnライブラリは、使いやすく、多種多様なアルゴリズムを提供するため、使用してください。
sklearnの詳細については、thisを参照してください。
テスト:最後に、テストセットを使用してモデルをテストし、モデルがデータにどのように適合しているかを確かめるために精度を計算します。
彼らはマシンを起動され、誰のために非常に理解しやすいようアンドリュー・ウで講義をチェックアウトは
データの可視化を、それをlearning.Find:Kaggleがに最高のプラットフォームのひとつであります新しいアプローチとアルゴリズムを学ぶthisリンクには、Irisデータセットでさまざまなデータ視覚化ツールを使用する方法に関する情報が記載されています。
データ視覚化の詳細については、thisを参照してください。
データビジュアライゼーションは、フィーチャの相関関係の理解に役立ちます。
これらの中で、あなたは基本的に、大学のGPA、大学ランキングなどが、検定期間後に雇用または解雇に大きな影響を与えるかどうかを予測しようとしています。基本的にはバイナリの分類問題です(これらのチュートリアルはBinary Classification Best Tutorialを参照してください)。 @ janu777で与えられたアプローチは正しいです、私はその中にいくつかの追加情報を加えたいと思っていました。 あなたはこれらのライブラリ
Pandas
Scikit Learn
Matplotlib
numpy
Sklearn
Statsmodelapi
データ検索に使用するのpython側から基本的にこれらの問題をされて解決するための手順、
Data Exploration(include variable identifications)
Data Cleaning
Feature Engineering(Watching correlations kind of property among features)
Model Building and Training
Doing Predictions
: まずあなたは、以前の従業員があったかどうか(前の年のデータを持っている必要がありますが雇われたか、または解雇された)。
import pandas as pd
import numpy as np
import matplotlib as plt
df = pd.read_csv("../trainset.csv") #Reading the dataset in a dataframe
df.describe()
データクリーニング
現在、これらの段階では、あなたのデータにおける欠損値と全てを見るために持っている必要があり、あなたの好みに応じた治療を行うことができますが、最も有名なのは、すべての欠落値をドロップすることです、私はあなたの列車のセットが大学のGPAと大学のランキングが機能変数である3変数を持っていると仮定しています
df.dropna(axis=0, how='all')
ので、そのためにあなたは、これらを使用することができます。あなたのターゲット変数が採用されている/起動されています(1または0)。予測変数とターゲット変数の間に相関を使用し、視覚化が役立つはずです。今、あなたはあなたの問題のためのモデルを作成する必要があり、これらのアルゴリズムSklearn algoを使用することができます(あなたが適用されなければならない非常に重要な段階である
trainingdata['GPA'].astype('float64').corr(trainingdata['target'].astype('float64'))
または
# importing the required module
import matplotlib.pyplot as plt
# x axis values
x = [1,2,3] # your feature variable
# corresponding y axis values
y = [2,4,1] # your target variable
# plotting the points
plt.plot(x, y)
# naming the x axis
plt.xlabel('x - axis')
# naming the y axis
plt.ylabel('y - axis')
# giving a title to my graph
plt.title('My first graph!')
# function to show the plot
plt.show()
モデルの構築と予測し、フィッティング 、決定木、knn、svmなどのアルゴリズムを選択し、良いスコアを与えるアルゴリズムのみを選択してください) これらのサンプルコードは、
あなたの問題を解決する必要があります予測 を行うfrom sklearn.ensemble import RandomForestClassifier
#Building random forest classifier model
def random_forest_classifier(features, target):
"""
To train the random forest classifier with features and target data
:param features:
:param target:
:return: trained random forest classifier
"""
clf = RandomForestClassifier()
clf.fit(features, target)
return clf
今、あなたは、あなたの試験データに同じのためのサンプルコードを予測を行うことができますされ、
predictions = randomforestmodelis.predict(test_x)
for i in range(0, 5):
print("Actual outcome :: {} and Predicted outcome :: {}".format(list(test_y)[i], predictions[i]))
#print("Train Accuracy :: ", accuracy_score(train_y, randomforestmodelis.predict(train_x)))
print("Test Accuracy :: ", accuracy_score(test_y, predictions))
。
これに答える時間をとってくれてありがとう。私はこの問題に関する新しい情報はほとんど得ていない。これを行う真の目標は、GPAの高い人が保護観察の後に圧倒的に雇われていることを示すことによってGPAを雇用のベンチマークとして維持することによって費用が節約できるかどうかを経営陣に証明することです。これは単に統計的な視覚化の問題ではなく、予測(機械学習)とは関係がありませんか? –
その場合、相関の種類のメソッドを使用してフィーチャ分析を行い、matplotlibのような視覚化を使用することができます。 –
リンクやその他のリソースを共有して、機能の分析や相関を学ぶことができれば、私が学ぶことが役に立ちます。 –
- 1. 償却分析 - 正しいアプローチ?
- 2. ClickStreamデータ分析
- 3. WSO2データ分析サーバ
- 4. CSVの解析とデータの分析
- 5. PostgreSQLのデータ分析/集計
- 6. csvのデータのパンダ分析
- 7. Excel:データの分析とドロップダウンオプション
- 8. パス:Rのデータ分析R
- 9. アソシエイト2ページの分析データ
- 10. WSO2データ分析サーバー - ファンクションログシュート
- 11. Alfresco内のデータの分析
- 12. Firebaseデータを分析する
- 13. データを取得してPythonで解析するアプローチ
- 14. データ統合アプローチ
- 15. 正規分布ベスト・アプローチ
- 16. WSO2分析対IS分析
- 17. SQLサーバーでのデータ構造の分析
- 18. Sitecore 8.1での分析データのエクスポート
- 19. PythonのTerciles(時間のデータ分析)
- 20. Firebirdのクエリでデータを分析する
- 21. Twitterデータ分析 - 用語のドキュメントマトリックスのエラー
- 22. データの可視化:感情分析
- 23. 抽象データを分析する
- 24. Informaticaデータ品質 - 一致分析
- 25. SitecoreがCRMに分析データを送信
- 26. データ分析とフィルタリングテーブルの比較
- 27. MySQLまたはRのダウンサンプリング分析データ
- 28. 自動データ保存と分析
- 29. 反応の関数アプローチと分類アプローチの違い
- 30. python - スクレイプされたデータを解析するときの最善のアプローチ
お返事ありがとうございます。私はこの問題に関する新しい情報はほとんど得ていない。これを行うことの本当の目的は、GPAの高い人々が保護観察の後に圧倒的に雇われていることを示すことによってGPAを雇用の基準として維持することによってコストを節約できるかどうかを経営者に証明することです。これは単に統計的な視覚化の問題ではなく、予測(機械学習)とは関係がありませんか? –
次に、機能解析ステップを実行してください。 GPAをある閾値以上の値に対しては高く、低い値に対しては低いものとして分類し、プロットすることによってこれを視覚化することもできる影響のパーセントをチェックする。 – janu777
リンクや他のリソースを共有して、機能分析や相関を学ぶことができれば、それは私が学ぶのに役立ちます。 –