2016-12-26 8 views
0

私は、3つのラベル「d」、「e」および「k」を有する分類されたデータのセットを持っています。私は分類子を訓練して 'd'を識別し、それらをデータセットから削除し、 'e'を識別したいと考えています。現在、データを3分の1に分割しています。これをX1、X2、X3と呼びます。 X1で学習者L1を訓練し、その学習者を使ってX2上の 'd'ラベルを取り除き、それを使ってX3でテストする第2の学習者L2を訓練します。これは合理的なアプローチですか、このようなシナリオでは標準が採用されていますか?1つのデータセットで2つの異なるアルゴリズムによる相互検証

+0

なぜ「e」を見つける前に「d」を取り除かなければならないのですか?これは何らかの方法でパフォーマンスを向上させることですか? (もしそうなら、それは必ずしも私が取るアプローチではない) – etov

+0

このように問題に近づくパフォーマンスの改善があるかどうかは、私は実際にはわかりません。私にチェックさせて、私は "結果"を投稿します。 – johnklawlor

+0

2番目の考えでは、私はここでの目標を理解していません。あなたはクラシファイアのパフォーマンスを測定しようとしていますか?または実際に 'd'を削除し、注釈のない一部のデータで 'e'を識別することができますか? – etov

答えて

0

一般に、クラシファイアのパフォーマンスを評価するための一般的な手法として、データセット全体(複数の「フォールド」を使用)を使用するクロスバリデーションと、一部のデータを除外するホールドアウトセット評価のためのトレーニングから。典型的には、ホールドアウト・セットは、トレーニングに使用されるデータ(例えば、80/20または70/30)よりもはるかに小さい。

この場合、1つのオプションはホールドアウトセットを維持することです。学習セットの学習と変更、すなわち分類器の訓練、 'd'要素の除去、別の分類器の訓練、 'e'要素の識別、その後、ホールドアウトセットに対してプロセス全体をテストします。

関連する問題