1つのデータセットで2つの異なるアルゴリズムによる相互検証

私は、3つのラベル「d」、「e」および「k」を有する分類されたデータのセットを持っています。私は分類子を訓練して 'd'を識別し、それらをデータセットから削除し、 'e'を識別したいと考えています。現在、データを3分の1に分割しています。これをX1、X2、X3と呼びます。 X1で学習者L1を訓練し、その学習者を使ってX2上の 'd'ラベルを取り除き、それを使ってX3でテストする第2の学習者L2を訓練します。これは合理的なアプローチですか、このようなシナリオでは標準が採用されていますか？1つのデータセットで2つの異なるアルゴリズムによる相互検証

出典

2016-12-26 johnklawlor

なぜ「e」を見つける前に「d」を取り除かなければならないのですか？これは何らかの方法でパフォーマンスを向上させることですか？（もしそうなら、それは必ずしも私が取るアプローチではない） – etov

このように問題に近づくパフォーマンスの改善があるかどうかは、私は実際にはわかりません。私にチェックさせて、私は "結果"を投稿します。 – johnklawlor

2番目の考えでは、私はここでの目標を理解していません。あなたはクラシファイアのパフォーマンスを測定しようとしていますか？または実際に 'd'を削除し、注釈のない一部のデータで 'e'を識別することができますか？ – etov

一般に、クラシファイアのパフォーマンスを評価するための一般的な手法として、データセット全体（複数の「フォールド」を使用）を使用するクロスバリデーションと、一部のデータを除外するホールドアウトセット評価のためのトレーニングから。典型的には、ホールドアウト・セットは、トレーニングに使用されるデータ（例えば、80/20または70/30）よりもはるかに小さい。

この場合、1つのオプションはホールドアウトセットを維持することです。学習セットの学習と変更、すなわち分類器の訓練、 'd'要素の除去、別の分類器の訓練、 'e'要素の識別、その後、ホールドアウトセットに対してプロセス全体をテストします。

出典

2016-12-27 15:39:49 etov

1つのデータセットで2つの異なるアルゴリズムによる相互検証

答えて

関連する問題