2016-07-10 8 views
0

私は、各年の予測を学生の成績に基づいて行うアプリケーションに取り組んでいます。学生の成績は、70から97の範囲である私のデータセットは、5年に1年目から生徒の成績が含まれています GWA1 - 1年目の一般的な加重平均 GWA2 - 2年全般GWA5WEKA前処理と予測学生のグレード

まで、その上 平均と加重します私は予測のためにJ48を使用するつもりです。

私は別の問題を抱えている、

  1. 私のデータセットは異なる学生の年間のレベルが含まれています。学生が現在4年目にいる場合、GWA4とGWA5はゼロです。私は卒業生だけを取るべきですか? (GWA1-GWA5を持っている学生)。
  2. 4年までのコースしかありません。データセット内のGWA5は0です。
  3. プログラムでは、現在の年のグレードを予測する必要があります。たとえば、2年生の場合、プログラムはGWA2を予測します。 4年生の場合、プログラムはGWA4を予測します。
  4. どのようにデータを前処理しますか?成績を「優秀」、「平均」、「貧しい」などの成績ラベルに分類する必要がありますか?

サンプルデータセット:

GWA1  GWA2  GWA3  GWA4  GWA5 
83.6  87.5  90.2  89.1  91.2 
76.4  78.2  77.6  80.9  79.4 
93.6  91.5  92.7  91.1  92.7 
+0

サンプルデータセットなどの詳細を追加できますか? – Masoud

+0

サンプルデータセットを追加 – danieljohngomez

答えて

0

は最も重要なのは、あなたのデータセットがtidyではありません。列を行に変換する必要があります(例:このテーブルのレイアウトに:

student year gpa passed s1 1 83.6 yes s1 2 76.4 no ...

私は "合格" 欄アップをしました。しかし、この設計は、J48がデフォルト設定でより簡単に操作できます。カテゴリまたはバイナリ変数を分類するために、J48は "class"属性(=予測する属性)の数値属性を処理できません。

J48で数値を予測できるかどうかわかりません。私はwekaとデータセットをかなり微調整する必要があると思います。

カスタマイズダイアログを確認し、ドキュメントを読み、google "regression by regression"を参照してください。あるいは、J48の代わりにLinearRegressionクラシファイアを使用する方が良いでしょう。

"Filter"パネルで、 "AddClassification"監視対象インスタンスフィルタを追加し、その "出力分類"オプションをTrueに設定する必要があります。

+0

回帰を使用する場合、データセットは同じですか?私は単に渡された列を削除しますか? – danieljohngomez

+0

はい。テーブルスキーマは、作成された「通過済み」列なしで、スケッチしたものと同じになります。線形回帰から得られる数値的な予測は、依然として途絶えている可能性があります。データの品質と前処理ステップによって異なります。たぶんあなた自身の最初に、全体の主題についてのより多くの情報を集めるかもしれません。 – knb

関連する問題