これは基本的な質問のように聞こえるかもしれませんが、トレーニングセットとテストに関する大きな混乱があります。トレーニングデータとテストデータ
何かを予測するために分類などの教師なし学習を使用する場合、データセットをトレーニングとテストの2つの部分に分割するのが一般的です。トレーニングセットには予測変数があり、モデルをデータセットでトレーニングして物事を「予測」します。
例を考えてみましょう。私たちは、銀行のローン不履行者を予測するつもりであり、ドイツのクレジットデータセットを持っています。ここでは、不法行為者と不履行者を予測していますが、顧客が不履行者であるか不破産者であるかを示す定義欄があります。
タイタニック生存データのようなUNSEENデータの予測ロジックは理解していますが、ドイツのクレジット貸出データなど、クラスが既に記載されている予測ポイントは何ですか?