2017-06-08 5 views
0

私は分類問題のためにsklearnからSVMを使用しようとしています。私は50K以上の行とバイナリ出力を持つ非常に疎なデータセットを持っています。
問題例えばカーネルではsklearnでsvmのパラメータを選択するには

、私は効率的なパラメータ、主にカーネルを選択する方法を非常によく知っていないガンマANC℃であり、私はすべてのカーネルを試すことになって、ちょうど1つを保持していますカーネルを選択する前に私たちが最初に見ることができる私たちのデータに関連するものがありますか?
Cとガンマは同じです。

ありがとうございます!

+0

"非常に疎なデータセット"とはどういう意味ですか?データセットは、参照スペースに関してのみ「疎」にすることができ、あなたは何も与えていません。また、あなたが持っているフィーチャー(列)の数を知ることもできます。 – Prune

+0

ハイパーパラメータ検索には[GridSearchCV](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html)を使用できます。 –

答えて

0

はい、これは主に実験の問題です。特に、分離度、線形性、密度、接続性など、分類アルゴリズムに影響を及ぼすすべての特性がデータセットについてごくわずかです。

まず、線形およびガウスのカーネルを試してみてください。線形がうまく動作せず、ガウス関数がうまくいかない場合は、他のカーネルを試してみてください。

最高の1または2のカーネルを見つけたら、、次にをコストとガンマパラメータで再生します。ガンマは「緩やかな」パラメータです。ギャップの幅、パーティション機能の単純さなど、他の利点のトレードオフとして、生の分類エラーの特定の割合を作るためのカーネルの許可を与えます。

I havenまだコストを変更することよりも些細な利点を得ているアプリケーションを持っていました。

関連する問題