0
現在、トレーニングとテストのセットは669個のフィーチャから始まります。その多くはカテゴリ化されており、ワンホットエンコードする必要があります。トレーニングデータとテストデータの機能の違いを処理する方法
両方のセットをワンホットエンコードした後、トレーニングセットに追加機能があることがわかりました。
私はこれをどのように扱うかはかなりよく分からないが、私は3つのオプション持っているように私は感じる:
- ので、両方の試合がアップ
- テスト・セットにこれらの機能を追加設定し、トレーニングから、これらの機能を削除し、合成データを生成する。
- モデルをトレーニングする前に、いくつかの次元削減技術(PCA)を使用し、同じ数のコンポーネントをトレーニングとテストに使用します。
フィードバックは高く評価されます。