2017-04-12 8 views
-1

私の最初の予測モデルを作成し、その結果は絶対にひどいです。 このトラブルシューティングの方法を特定するための助けが必要です。初心者のモデルの悪いトラブルシューティングのガイド

リニア回帰を行っています&ロジスティック回帰分類は、生徒がコースを通過するかどうかを予測するために、1つははい、0は0になります。

データセットは1つのクラスに対して完全なデータしか持たないので、わずか60個の行の下に16個のフィーチャがあり、35個が成功し、25個が失敗したためです。 私のデータセットが単に小さすぎるのかどうか疑問に思っています。

まだデータセットを共有したくはありませんが、完全に匿名のようにそれをクリーンアップします。

ROCは非常に非常にギザギザであり(ログ回帰のために)、何よりも多くの誤検出を予測します。

私がプロに就職する前に試してみることのできる初心者のための一般的なトラブルシューティングのアドバイスをお寄せいただきありがとうございます。

ありがとうございました。

enter image description here

答えて

0

Idはいくつかのヒントをお勧め:AzureのMLで

  • は、「フィルタベースの特徴選択」と呼ばれるモジュールをtheresのは本当に予測力がある場合、あなたはあなたの機能を獲得し、チェックするためにそれを使用することができますそれらの中で、または最も高いスコアを有するものだけを選択することさえできる。
  • train/cross validationのsplittを使用して両方のモデルを設定して評価し、アンダーフィット(ハイバイアス)またはオーバーフィッティング(高分散)を識別する診断として使用し、診断に応じて:
  • より多くのデータを取得する、少ない機能を使用する、複雑なモデルを使用する、正規化を追加する、または増加させる
  • アンダーフィットの場合:より多くの機能を追加し、より複雑なモデルを使用し、

と自問してみてください探求し、評価データを、実際にその分離可能かどうかを確認するために散布図を使用し、このために機能工学、前処理を実行するために開始の訓練の前に、忘れてはいけない:人間の専門家だろう、これは特徴与えられましたあなたの答えがそうでない場合、答えが正であるように機能を変換または削除する

+0

ありがとうございます。私はフィーチャー・ジェネレーションに数日を費やして、データから何かを作ることができるかどうかを確認します。正確な予測を行うためにデータ間の関係が不十分で、データを拷問して、できないことをするよりも、特定の機能やデータのセットを終了することをお勧めします。 ? –

+0

あまりにも相関がないデータセット、あまりにも小さなデータセット、それはwhayの探査、フィーチャエンジニアリング、その前処理、重要なフィルタベースのフィーチャの選択、それはあなたを助けてくれるでしょう事前トレーニングの仕事は、おそらくデータセットはそれほど強力ではありませんが、いくつかのクリーニングの後、いくつかの計算された機能を追加し、他のものを削除すると、それは別の話になります –

関連する問題