2017-09-10 10 views
0

これは基本的な質問のように聞こえるかもしれませんが、トレーニングセットとテストに関する大きな混乱があります。トレーニングデータとテストデータ

何かを予測するために分類などの教師なし学習を使用する場合、データセットをトレーニングとテストの2つの部分に分割するのが一般的です。トレーニングセットには予測変数があり、モデルをデータセットでトレーニングして物事を「予測」します。

例を考えてみましょう。私たちは、銀行のローン不履行者を予測するつもりであり、ドイツのクレジットデータセットを持っています。ここでは、不法行為者と不履行者を予測していますが、顧客が不履行者であるか不破産者であるかを示す定義欄があります。

タイタニック生存データのようなUNSEENデータの予測ロジックは理解していますが、ドイツのクレジット貸出データなど、クラスが既に記載されている予測ポイントは何ですか?

答えて

1

あなたが言ったように、考え方は、UNSEENのデータを予測することです。テストデータは、トレーニングデータによって作成されたモデルのパフォーマンスを測定するためにのみ使用されます。登場するモデルがトレーニングデータ「overfit」ではないことを確認したい。そのため、テストデータが重要です。最終的には、モデルを使用して、新しいローンナーがデフォルトになるかどうかを予測し、ローン申請を承認するかどうかのビジネス判断を下します。

0

デフォルトの値が含まれているのは、モデルが期待どおりに動作していることを確認し、正しい結果を予測できるようにするためです。それがなければ、誰もがモデルが期待どおりに機能していると確信する方法がありません。

0

モデルのトレーニングの究極の目的は、UNSEENというデータに適用することです。

あなたのドイツの貸出貸出の例でも、終わりには、新しく見えないクレジットアプリケーションがデフォルトになるかどうかを予測するために使用できる訓練されたモデルがあります。また、モデルをトレーニングするのに使用したのと同じフォーマットで新しいクレジットデータを表すことができれば、将来、新しいクレジットアプリケーションのために使用することができます。

一方、テストセットは、モデルがどれほど良いかを推定するために使用される形式表現です。将来のクレジットアプリケーションでモデルの正確さを確かめることはできませんが、できることはトレーニングデータの一部を保存してのみを使用してのみを使用してモデルのパフォーマンスを確認します建てられた。これがテストセット(より正確には検証セット)と呼ばれるものです。

関連する問題