2016-07-27 10 views
1

文字列/カテゴリの機能を自動的にエンコードするクラスがlibsvmにありますか?私はlibsvmstringoutcomedatawriterというものを見つけました。上記のコードを使用するエンコードのタイプはどれですか? 1つのホットエンコーディング?libsvmのカテゴリ変数を符号化する

+0

Cleartk libsvmにはibsvmstringoutcomedatawriterクラスがあります。 –

答えて

0

LibSVMの機能をエンコードする方法は、SVMで使用するカーネルによって異なります。たとえば、SVMで文字列を直接フィーチャーとして使用できるストリングカーネルが存在します。 LibSVM FAQは、LibSVMで使用できる文字列カーネルの実装について説明しています。私もstring kernel implementation in Pythonが見つかりましたが、テストしていません。

カテゴリ機能については、LibSVMで使用可能な標準カーネルで使用できます。カテゴリフィーチャを符号化する一般的な方法は、バイナリフィーチャに変換することです。各カテゴリ値は、特定のフィーチャの値1として表されます。たとえば、機能color={red, green, blue}の場合、3つの機能red={0,1},green={0,1},blue={0,1}を持つことができます。ガウス/ RBFなどのカーネルは問題なくデータを処理できるはずです。

+0

しかし、このエンコーディングは手動で行う必要がありますか?そして私はPOSタグである機能をエンコードしようとしています。それらの詳細は? –

関連する問題