私はSpark Mllib Linear SVMを使用していくつかのデータを分類するプロジェクトに取り組んでいます(12正則化)。私は、200のポジティブな観察と、150の(生成された)ネガティブな観察のように、それぞれ744の特徴を有し、これは家の異なる地域の人の活動レベルを表す。リニアSVMと非線形SVMの高次元データ
私はいくつかのテストを実行しました。 "areaUnderROC"メトリックは0.991でした。このモデルは、私が提供するデータを分類するのに非常に優れているようです。 私はいくつかの研究を行いましたが、線形SVMは高次元のデータには優れていることがわかりましたが、問題は線形のものがデータをうまく分割する方法を理解できないことです。
は私が2Dで考えると、多分これは問題があるが、下の画像を見て、私は私のデータをより非線形の問題のように見えることを90%確信している
だから、私は良い持っていることを普通ですテストの結果は?私は何か間違っているのですか?私はアプローチを変更する必要がありますか?私はあなたが疑問だと思う