私はscikit-learn
を使用して、簡単な監視学習アルゴリズムを実装します。本質的に私はチュートリアルhereに従っています(しかし私自身のデータで)。カテゴリ(文字列)データをラベルとして使用するSVC(サポートベクター分類)
私はモデルに合わせてみてください:
clf = svm.SVC(gamma=0.001, C=100.)
clf.fit(features_training,labels_training)
しかし、二行目で、私はエラーを取得:
label_training
は、このような、3つのカテゴリーを表す文字列値が含まれているため
ValueError: could not convert string to float: 'A'
エラーが期待されていますA
,B
,C
となる。
質問:ラベル付きデータが文字列形式のカテゴリを表す場合、SVC(サポートベクター分類)を使用するにはどうすればよいですか。直感的な解決策は、各文字列を数字に変換するだけのようです。たとえば、A = 0
,B = 1
などですが、これは実際には最高の解決策ですか?
少なくともセクションに直接リンクし、OneHotEncoderについて言及してください –
しかし、新しい色を予測しようとすると、どのようにホットコードが役に立ちますか?おそらくあなたの場合、モデルを再トレーニングする必要があります。何か解決策はありますか? – gtzinos