私は大きなデータセットであるデータセットを持っています。私はT-SNEを使ってデータをプロットしました。線形の分離可能な決定境界を見つけることができませんでした。なぜなら、その中に決定境界を見つけることができなかったからです。SVMアルゴリズムが有効なモデルです
私はSVMを試してみましたが、より高次元でハイパープレーンを分けることができればうまくいくと思いました。
現在、私は94%のトレーニング精度を得ていますが、データセットのサイズを20,000エントリ増加させたときに50%のテストエラーが発生しました。トレーニングデータの精度は65%クロス検証において多かれ少なかれ)、トレーニングの精度は93%です。 私の質問は、私は実際に問題を正確に学習するこのマシンを解決していますか?私は間違った方向に向いています。可能であれば、問題を解決するための実践的なアプローチについていくつかのリンクを教えてください。
siestschieさん、ありがとうございます。私は現在の問題にさらにデータを追加しようとし、次にsklearnライブラリのグリッド検索を試みます。 svmの動作を確認します。それに応じて、SVMが現在の状況でうまく動作するか、別のアルゴリズムに切り替わるかどうかを確認します。あなたの提案をありがとう。 – Hero