2016-12-04 12 views
-1

私が提供するすべてのデータセットは、私が適用するすべての分類アルゴリズムに対して100%の精度を提供するため、正確さを得ることができません。私のデータセットは10人です。 ナイーブベイ、J48、JRipクラシファイアアルゴリズムにも同じ精度が得られます。wekaは、すべてのデータセットに対して正しく分類されたインスタンスを100%返します

enter image description here

+----+-------+----+----+----+----+----+-----+----+------+-------+-------+-------+ 
| id | name | q1 | q2 | q3 | m1 | m2 | tut | fl | proj | fexam | total | grade | 
+----+-------+----+----+----+----+----+-----+----+------+-------+-------+-------+ 
| 1 | abv | 5 | 5 | 5 | 13 | 13 | 4 | 8 | 7 | 40 | 100 | p  | 
| 2 | ca | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 40 | 48 | f  | 
| 3 | ga | 4 | 2 | 3 | 5 | 10 | 4 | 5 | 6 | 20 | 59 | f  | 
| 4 | ui | 5 | 4 | 4 | 12 | 13 | 3 | 7 | 7 | 39 | 94 | p  | 
| 5 | pa | 4 | 1 | 1 | 4 | 3 | 2 | 4 | 5 | 22 | 46 | f  | 
| 6 | la | 2 | 3 | 1 | 1 | 2 | 0 | 4 | 2 | 11 | 26 | f  | 
| 7 | ka | 5 | 4 | 1 | 3 | 3 | 1 | 6 | 4 | 24 | 51 | f  | 
| 8 | ma | 5 | 3 | 3 | 9 | 8 | 4 | 8 | 0 | 20 | 60 | p  | 
| 9 | ash | 2 | 5 | 5 | 11 | 12 | 3 | 7 | 6 | 30 | 81 | p  | 
| 10 | opo | 4 | 2 | 1 | 13 | 1 | 3 | 7 | 3 | 35 | 69 | p  | 
+----+-------+----+----+----+----+----+-----+----+------+-------+-------+-------+ 

答えて

0

任意の一意の識別子列が含まれていませに確認してください。

totalは含まれません。

ほとんどの場合、分類器は "名前"が良い予測子であること、および/またはtotal > 59点合計が通過する必要があることを学びました。 私は、あなたが少なくとも1つのエクササイズを中止することをお勧めします - それでも、いくつかのクラシファイアは、個々のポイントの合計が合格する必要があることをまだ知っています。

"パート3でうまくいくとすれば、おそらく成功するでしょう"というように、あるパートが最も合格しているかどうかを調べたいと思っています。しかし、この質問に答えるには、例えばあなたのプレディクタは、どの質問に最も多くのポイントがあるのか​​を特定するだけです...

また、10は非常に小さいサンプルサイズです!

0

J48が生成したツリーは変数flのみを使用していることが表示されているので、@ Anony-Mousseが参照する問題はないと考えられます。

トレーニングセットでテストしていることがわかりました(GUIの左上にある「テストオプション」ラジオボタンを参照)。それはほとんどの場合、正確さを過大評価します。あなたが見ているものは過当です。代わりに、クロスバリデーションを使用して、新しいデータに期待できる正確さをより正確に見積もることができます。データポイントが10個の場合は、10または5のいずれかを使用する必要があります。

0

「k分割」または「パーセント分割」の交差検証でモデルをテストしてみてください。

一般的にPercentage Split:トレーニングセットはデータセットの2/3であり、テストセットは1/3です。

また、あなたのデータセットが非常に小さいと感じるもの...この場合、高い精度の可能性があります。

関連する問題