2016-10-11 15 views
0

スタッキングの仕組みを理解しようとしていますが、これまで正しく理解しているかどうかはわかりません。Stacking、Stacked Generalizationアルゴリズム

  1. 我々は完全なデータセットとKベース学習者(レベル0)のそれぞれを訓練:だから、ここで私はこれまで理解するものです。

  2. 私たちはそれぞれ、基礎学習者がデータセット全体を予測するようにしました。

  3. 基本学習者のすべての予測から新しいデータセットを作成します。新しいデータセットは、元のデータセット+各基本学習者の予測と同じように見えます。

  4. このデータセットは、メタ学習者(レベル1)を訓練するために使用されます。

私の質問:

  1. が、これはこれまでのところ、正しいですか?
  2. 私はしばしばスタッキングに何らかの形でクロスバリデーションが使用されていると読んでいますが、私は理解できませんでした。どのように使用されていますか?それとも、私が行方不明になっている、それは不可欠な部分ですか?

感謝

答えて

3

ご理解のほとんどは正しいです! On

新しいデータセットは、元のデータセット+各基本学習者の予測と同じように見えます。

一つオリジナルの特徴+各基地学習者の予測を使用しますが、人々は、彼らは通常、各基地学習者の単なる予測を使用しているスタックの話をするときがあります。

スタッキングに何らかの形でクロスバリデーションが使用されていることがよくありますが、使用方法がわかりませんでしたか?それとも、私が行方不明になっている、それは不可欠な部分ですか?

はい、クロスバリデーションはスタッキングでよく使用されます。何が起こるかは、説明したように行うときに、データモデル全体を見て各予測が行われているので、ベースモデルの予測からメタモデル(レベル-1と呼ぶ)がオーバーフィットすることがあります。

それでは、クロスバリデーションを行い、データをk-フォールドに分割します。目に見えないデータで予測されるモデルの偏りのない推定値を得るために、k番目に保持されたフォールド(そのすべてのkを循環する)で予測を使用します。次に、それらにメタモデルを適合させます(そこに交差検証はありません)。

関連する問題